При анализе информации часто возникает ситуация, когда теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают?
Дело в том, что безупречные с точки зрения теории методы имеют мало общего с действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать какие-либо четкие предположения относительно исследуемой задачи. Модель не известна, и единственным источником сведений для ее построения является таблица экспериментальных данных типа «вход — выход», каждая строка которой содержит значения входных характеристик объекта и соответствующие им значения выходных характеристик.
В результате он вынужден использовать всякого рода эвристические или экспертные предположения и о выборе информативных признаков, и о классе моделей, и о параметрах выбранной модели. Эти предположения аналитика основываются на его опыте, интуиции, понимании смысла анализируемого процесса.
Выводы, получаемые при таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности пространства решений, которую можно выразить так: «Похожие входные ситуации приводят к похожим выходным реакциям системы». Идея на интуитивном уровне достаточно понятная, и этого обычно достаточно для получения практически приемлемых решений в каждом конкретном случае.
В результате применения такого метода решений академическая строгость приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового. Если какие–то подходы к решению задачи вступают в противоречие с реальностью, то обычно их изменяют.
Возвращаясь к анализу данных, или, вернее, к тому, что называют Machine Learning, следует обратить внимание еще на один момент: процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты.
При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой–то степени, — приближение. Вообще, всякая система рассуждений о реальном мире предполагает разного рода приближения. Фактически, термин «машинное обучение» — это признание физического подхода, наряду с математическим, к решению задач анализа данных. Что же вкладывается в понятие «физический подход»?
Это такой подход, при котором аналитик готов к тому, что процесс может оказаться слишком запутанным и не поддающимся точному анализу с помощью строгих математических методов. Но можно все же получить хорошее представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы. При этом мы движемся от грубой модели ко все более точным представлениям об анализируемом процессе. Слегка перефразировав Фейнмана, можно сказать так: можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью.
Таким образом, данный подход подразумевает, что:
В качестве примера можно в общих чертах рассмотреть процесс анализа рынка недвижимости в г. Москве. Цель — оценка инвестиционной привлекательности проектов. Одна из задач, решаемых при этом, — построение модели ценообразования для жилья в новостройках, другими словами, нахождение количественной зависимости цены жилья от ценообразующих факторов. Для типового жилья таковыми, в частности, являются:
Вот тут-то очень кстати приходится высказывание Р. Фейнмана относительно идеальной модели и точности.
Для начала из имеющейся истории продаж можно ограничиться данными для одного района Москвы. В качестве входных факторов взять ограниченный набор характеристик с точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома, отделка, этаж (первый, последний, средний), готовность объекта, количество комнат, секция (угловая, обычная), метраж. Выходным атрибутом будет цена за квадратный метр, по которой продавались квартиры. Получится вполне обозримая таблица с разумным количеством входных факторов.
На этих данных обучить нейросеть, то есть построить довольно грубую модель. При всей своей приблизительности у ней будет одно существенное достоинство: она правильно отразит зависимость цены от учитываемых факторов. Например, при прочих равных условиях, квартира в угловой секции стоит дешевле, чем в обычной, а стоимость квартир по мере готовности объекта возрастает. Далее нужно ее совершенствовать, делать более полной и точной.
На следующем этапе в обучающее множество можно добавить записи о продажах в других районах Москвы. Соответственно, в качестве входных факторов будут учитываться такие характеристики, как престижность района, экология района, удаленность от метро. Так же в обучающую выборку желательно добавить цену за аналогичное жилье на вторичном рынке.
Специалисты, имеющие опыт работы на рынке недвижимости, имеют возможность в процессе совершенствования модели безболезненно экспериментировать, добавляя или исключая факторы, т.к. процесс поиска более совершенной модели сводится к обучению нейросети на разных наборах данных. Главное здесь вовремя понять, что процесс этот бесконечен.
Это пример довольно эффективного подхода к анализу данных: использование опыта и интуиции специалиста в своей области для последовательного приближения ко все более точной модели анализируемого процесса. Основное требование при этом — наличие качественной информации достаточного объема, что невозможно без системы автоматизации сбора и хранения данных, о чем всегда надо помнить тем, кто серьезно занимается информационным обеспечением бизнеса.
Описанный подход позволяет решать реальные задачи с приемлемым качеством. Конечно, можно найти у данной методики множество недостатков, но в действительности реальной альтернативы ей нет, разве что отказаться от анализа вообще. Хотя если физики с успехом используют такие методы анализа уже много веков, почему бы не взять его на вооружение и в других областях?
Другие материалы: