Методика анализа данных

12 августа 2020
0 комментариев

При анализе информации часто возникает ситуация, когда теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают?

Дело в том, что безупречные с точки зрения теории методы имеют мало общего с действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать какие-либо четкие предположения относительно исследуемой задачи. Модель не известна, и единственным источником сведений для ее построения является таблица экспериментальных данных типа «вход — выход», каждая строка которой содержит значения входных характеристик объекта и соответствующие им значения выходных характеристик.

В результате он вынужден использовать всякого рода эвристические или экспертные предположения и о выборе информативных признаков, и о классе моделей, и о параметрах выбранной модели. Эти предположения аналитика основываются на его опыте, интуиции, понимании смысла анализируемого процесса.

Выводы, получаемые при таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности пространства решений, которую можно выразить так: «Похожие входные ситуации приводят к похожим выходным реакциям системы». Идея на интуитивном уровне достаточно понятная, и этого обычно достаточно для получения практически приемлемых решений в каждом конкретном случае.

В результате применения такого метода решений академическая строгость приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового. Если какие–то подходы к решению задачи вступают в противоречие с реальностью, то обычно их изменяют.

Возвращаясь к анализу данных, или, вернее, к тому, что называют Machine Learning, следует обратить внимание еще на один момент: процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты.

При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой–то степени, — приближение. Вообще, всякая система рассуждений о реальном мире предполагает разного рода приближения. Фактически, термин «машинное обучение» — это признание физического подхода, наряду с математическим, к решению задач анализа данных. Что же вкладывается в понятие «физический подход»?

Это такой подход, при котором аналитик готов к тому, что процесс может оказаться слишком запутанным и не поддающимся точному анализу с помощью строгих математических методов. Но можно все же получить хорошее представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы. При этом мы движемся от грубой модели ко все более точным представлениям об анализируемом процессе. Слегка перефразировав Фейнмана, можно сказать так: можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью.

Методика анализа данных

Таким образом, данный подход подразумевает, что:

  1. При анализе нужно отталкиваться от опыта эксперта.
  2. Необходимо рассматривать проблему под разными углами и комбинировать подходы.
  3. Не стоит стремиться сразу к высокой точности, нужно двигаться к решению нужно от более простых и грубых моделей ко все более сложным и точным.
  4. Стоит останавливаться как только получим приемлемый результат, не стремясь получить идеальную модель.
  5. По прошествии времени и накоплению новых сведений нужно повторять цикл — процесс познания бесконечен.

Пример работы

В качестве примера можно в общих чертах рассмотреть процесс анализа рынка недвижимости в г. Москве. Цель — оценка инвестиционной привлекательности проектов. Одна из задач, решаемых при этом, — построение модели ценообразования для жилья в новостройках, другими словами, нахождение количественной зависимости цены жилья от ценообразующих факторов. Для типового жилья таковыми, в частности, являются:

  1. Местоположение дома (престижность района; инфраструктура района; массовая или точечная застройка; окружение дома (напр. нежелательное соседство с промышленными предприятиями, «хрущевками», рынками и т.д.); экология района (близость к лесопарковым массивам)).
  2. Местоположение квартиры (этаж — первые и последние этажи дешевле; секция — квартиры в торцевых секциях дешевле; ориентация квартиры по сторонам света — северная сторона дешевле; вид из окон).
  3. Тип дома.
  4. Площадь квартиры.
  5. Наличие лоджий (балконов).
  6. Стадия строительства (чем ближе к сдаче дома, тем выше цена за кв.м.).
  7. Наличие отделки («черновая» отделка, частичная отделка, под ключ. Большинство новостроек сдаются с черновой отделкой).
  8. Транспортное сообщение (близость к метро, удаленность от крупных магистралей, удобный подъезд, наличие автостоянки около дома, наличие парковочных мест).
  9. Кто продает квартиру («из первых рук» (инвестор, застройщик) или посредники-риэлтеры).

Вот тут-то очень кстати приходится высказывание Р. Фейнмана относительно идеальной модели и точности.

Для начала из имеющейся истории продаж можно ограничиться данными для одного района Москвы. В качестве входных факторов взять ограниченный набор характеристик с точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома, отделка, этаж (первый, последний, средний), готовность объекта, количество комнат, секция (угловая, обычная), метраж. Выходным атрибутом будет цена за квадратный метр, по которой продавались квартиры. Получится вполне обозримая таблица с разумным количеством входных факторов.

На этих данных обучить нейросеть, то есть построить довольно грубую модель. При всей своей приблизительности у ней будет одно существенное достоинство: она правильно отразит зависимость цены от учитываемых факторов. Например, при прочих равных условиях, квартира в угловой секции стоит дешевле, чем в обычной, а стоимость квартир по мере готовности объекта возрастает. Далее нужно ее совершенствовать, делать более полной и точной.

На следующем этапе в обучающее множество можно добавить записи о продажах в других районах Москвы. Соответственно, в качестве входных факторов будут учитываться такие характеристики, как престижность района, экология района, удаленность от метро. Так же в обучающую выборку желательно добавить цену за аналогичное жилье на вторичном рынке.

Специалисты, имеющие опыт работы на рынке недвижимости, имеют возможность в процессе совершенствования модели безболезненно экспериментировать, добавляя или исключая факторы, т.к. процесс поиска более совершенной модели сводится к обучению нейросети на разных наборах данных. Главное здесь вовремя понять, что процесс этот бесконечен.

Это пример довольно эффективного подхода к анализу данных: использование опыта и интуиции специалиста в своей области для последовательного приближения ко все более точной модели анализируемого процесса. Основное требование при этом — наличие качественной информации достаточного объема, что невозможно без системы автоматизации сбора и хранения данных, о чем всегда надо помнить тем, кто серьезно занимается информационным обеспечением бизнеса.

Вывод

Описанный подход позволяет решать реальные задачи с приемлемым качеством. Конечно, можно найти у данной методики множество недостатков, но в действительности реальной альтернативы ей нет, разве что отказаться от анализа вообще. Хотя если физики с успехом используют такие методы анализа уже много веков, почему бы не взять его на вооружение и в других областях?

 

Другие материалы:

Loginom Community Edition - аналитика, доступная каждому

Интервью Алексея Арустамова для медиахолдинга РБК

#аналитика#нейросеть

Смотрите также

Подписывайтесь на телеграмм-канал Loginom
Новости, материалы по аналитике, кейсы применения, активное сообщество
Подписаться