От данных к знаниям или от знаний к данным?

6 марта 2018

Среди новых возможностей платформы Loginom можно выделить разработку сценариев с использованием технологий как «снизу вверх» - от данных к моделям, так и «сверху вниз» - от моделей к данным. Это делает процесс разработки сценариев гибче, а при необходимости позволяет создавать аналитические модели даже без загрузки данных.

В 1989 году на одном из семинаров, посвященных технологиям поиска знаний в базах данных (Knowledge Discovery in Databases – KDD), проводимых в рамках Международной конференции по искусственному интеллекту (International Joint Conference on Artificial Intelligence) IJCAI-89 в Детройте, В. Г. Пятецкий-Шапиро ввёл понятие Data Mining. Это направление в информационных технологиях, включающее «методы обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности».

Таким образом, изначальная парадигма Data Mining предполагала, что первичной основой для построения сценариев интеллектуального анализа являются не условия конкретной задачи, а связанные с ней данные. Иными словами, аналитические алгоритмы обнаруживают в данных скрытые зависимости, закономерности и структуры, интерпретация которых специалистами и экспертами предметной области позволяют им генерировать знания в виде правил, выводов и заключений, необходимых для решения задачи анализа и поддержки принятия решений.

Эта парадигма, предполагающая движение от данных к знаниям, определяла вектор развития рынка систем и платформ для бизнес-аналитики на протяжении трёх десятилетий.

Проектирование «снизу вверх»

В основе построения сценариев анализа данных в классических системах Data Mining лежала процедура, аналогичная процедуре проектирования «снизу вверх», используемой при разработке программного обеспечения или изделий на производстве. То есть когда проектирование производилось от более конкретных уровней описания функций программы или промышленных изделий, к более абстрактным (например, от отдельно проектируемых деталей к их сборке).

При этом задача формулировалась не как «мы хотим получить следующие результаты», а «какие у нас есть данные и что мы можем из них извлечь?».

Очевидно, что при такой постановке, любой сценарий анализа всегда будет начинаться с загрузки источников данных. На следующем уровне происходит первый шаг абстрагирования от данных, на котором производится их первичная обработка – очистка, группировка, агрегирование и т.д. На этом уровне аналитик оперирует уже не самими, конкретными данными, а метаданными (именами и свойствами полей данных, параметрами обработки).

Следующий уровень абстракции при проектировании «снизу вверх» - применение к результатам предыдущего уровня, тех или иных обработчиков, которые, в результате своей работы порождают новые данные, ещё более абстрагированные от первоначальных.

И так продолжается до тех пор, пока не принимается решение, что поставленная задача решена. При этом оказывается, что на верхних уровнях сценария аналитик оперирует в основном условиями задачи, почти абстрагировавшись от исходных данных.

Проектирование «снизу вверх» имеет свои преимущества и недостатки. К преимуществам можно отнести:

  • более прозрачную, простую и понятную для аналитика структуру сценария, а также его бизнес-логику;
  • скорость и простоту разработки;
  • проще искать ошибки в сценарии.

К недостаткам подхода могут быть отнесены:

  • ориентированность на единичные задачи;
  • сложность повторного использования в аналогичных задачах;
  • необходимость при изменении структуры данных вносить изменения во всём сценарии.

Проектирование «сверху вниз»

По мере того, как технологии интеллектуального анализа данных получали всё более широкое распространение и проникали в различные сферы человеческой деятельности, в некоторых отраслях начала формироваться свои методологии и подходы к их использованию для поддержки принятия управленческих решений.

Зачастую это приводило к тому, что определенные идеи об использовании методов Data Mining появлялись раньше, чем данные, которые позволили бы по-строить модели, реализующие эти идеи. Иными словами, представления и идеи о том, как повысить эффективность бизнеса, появляются раньше, чем данные, которые позволили реализовать их на практике.

Данная ситуация не препятствует разработке сценариев анализа данных, просто требует для этого несколько иную парадигму, чем та, которую декларировали 30 лет назад создатели технологии Data Mining – необходимо двигаться не от данных к знаниям, а напротив – от знаний к данным.

При этом реализовывается технология разработки «сверху вниз», когда сначала строятся уровни сценария, максимально абстрагированные от конкретных данных, а разработка производится по нисходящей – к всё более конкретным действиям. Пройдя весь путь разработки, в конце станет ясно, какие именно данные нам потребуются и в каком виде они должны быть представлены. Это позволит понять какие данные нам понадобятся и как их получить.

Преимущества проектирования сценариев сверху вниз следующие:

  • сценарий «делает» то, что нужно, а не то, что позволят имеющиеся данные;
  • проще структурировать процесс разработки сценария;
  • проще составить техническое задание;
  • больше возможностей повторного использования.

К недостаткам можно отнести:

  • необходимость обладать некоторыми априорными знаниями и идеями о предметной области;
  • пока отсутствуют данные, мы не можем корректно настроить их очистку и предобработку.

Проектирование сценариев в Deductor и Loginom

Аналитическая платформа Deductor позволяет реализовывать только концепцию проектирования «снизу вверх». На практике это означает, что Мастер обработки даже не будет доступен, пока в сценарии не появится узел «Загрузка данных».

Loginom позволяет реализовывать обе парадигмы разработки сценариев анализа. Иными словами начальным узлом в сценарии может быть как источник данных, так и абстрактная модель, для которой могут быть заданы входные и выходные переменные, а также определенная структура входных и выходных наборов данных. И если в дальнейшем данные появятся, то при условии синхронизации метаданных источника и модели, данные смогут быть использованы для её обучения или практической работы.

Аналитическая платформа Loginom позволяет разрабатывать сценарии как «снизу вверх», так и «сверху вниз», что позволяет выбирать тот подход, который позволит построить лучшее решение в каждом конкретном случае.

Проектирование снизу вверх предпочтительно, когда данные полностью доступны и готовы для анализа, и если повторное использование моделей для решения аналогичных задач в будущем не предполагается.

Проектирование сверху вниз позволяется добиться лучших результатов если исходные данные на начальном этапе разработки сценария использовать невозможно (они отсутствуют, недоступны, не полные, их недостаточно и т.д.). Но при этом имеются определенные представления и идеи относительно структуры исходных данных, а также целей и результатов их аналитической обработки. Проектирование сверху вниз позволяет эффективно производить повторное использование аналитических моделей при решении смежных задач.

Другие материалы по теме:

 Пример построения простого сценария. Деморолик

 ABC XYZ — анализ продаж для умного управления бизнесом

Орешков Вячеслав
Рязанский государственный радиотехнический университет, Доцент кафедры САПР ВС
#data mining

Смотрите также