Что такое грязные данные и почему им посвящают марафоны?

Что такое грязные данные и почему им посвящают марафоны?

Приветствуем на марафоне Loginom!

Если вы оказались здесь, то вам определенно приходится работать с данными по задачам от руководства или для выполнения собственных проектов. Так или иначе, анализ данных является важной частью вашей жизни.

При работе с данными в «обывательском» режиме кажется, что пирамида задач выглядит так:

Задачи дата-аналитики (ожидание)

Нужно подключиться к источникам, построить отчеты, сделать выводы или отправить отчет выше по цепочке. Однако в реальности при работе с данными следует держать в голове больше промежуточных этапов от загрузки до визуализации.

Задачи дата-аналитики (реальность)

Этапы подготовки данных

Перед тем, как приступить к визуализации необходимо выполнить определенные действия над данными:

  1. Загрузка из источников. Нужно подключиться к месту хранения данных. Чаще всего это база данных или файлы. Может потребоваться загрузка множества одинаковых файлов или разворачивание сводных таблиц в плоские. Частая задача — объединение записей из нескольких источников.
  2. Техническая очистка. Данные надо проверить на наличие типовых проблем: дубли, пропуски, противоречия. Даже если информация получена из надежного хранилища, не стоит игнорировать проверку. В конце концов, многие ошибки технического плана возникают «бесшумно». Например, разработчик не учел реальную структуру данных в написании запроса объединения таблиц. Как следствие появились дубли. Ошибка может пройти незамеченной и проявить себя при получении отчета руководством.
  3. Семантическая очистка. Технически идеальные данные могут содержать смысловые ошибки. Одна из причин — объединение несовместимых понятий, процессов или показателей, например, построение портрета среднего клиента на основе смешанных оптовых и розничных продаж.
  4. Обогащение/генерация данных. Визуализируемые данные желательно обогащать дополнительными аналитическими признаками. В этом случае пользователь отчета сможет быстро отфильтровать клиентов по статусам или товары по стабильности продаж, и, следовательно, проанализировать показатели в этих разрезах. Это делает отчеты проще и понятнее.

Ценность правильной подготовки данных

Известно множество примеров, когда неправильные настройки визуализации приводят к некорректному восприятию данных. Классика жанра — при отсчете оси Y не от нуля разница между столбцами выглядит более серьезной, чем на самом деле.

Искажение в восприятии информации

Однако если проблемы кроются на уровне самих данных, а не визуализации, высока вероятность запутать всех, включая самого себя, не подозревая об этом. Даже если у аналитика черный пояс по созданию дашбордов.

Проблемы могут быть технического характера: на дашбордах числа больше/меньше, чем в учетных системах или других отчетах. Потребуется время, чтобы разобраться почему так и кто не прав. Такие ошибки, как правило, быстро выявляются, хоть и сопровождаются нападками в сторону аналитика :)

Не менее опасны смысловые ошибки, которые могут создать предпосылки для неправильного принятия решений, например, завышенных прогнозов. Если в отчете средний чек клиента 15 000, а на самом деле 7 500, то будет построена слишком оптимистичная финансовая модель.

Решения, принятые на основе такой информации, приведут к потерям. И хотя технически в данных нет ошибок, последствия могут быть печальными. Задача очистки данных сделать так, чтобы проблемы были исправлены или хотя бы выявлены, а не маскировались за красивыми картинками.

Что будем делать на марафоне?

Марафон посвящен тому, чтобы простой аналитик без навыков программирования смог самостоятельно выполнить вышеобозначенные этапы подготовки данных. Работа с данными демонстрируются на примере задачи анализа клиентов в оптовой торговле.

Такая сквозная тема выбрана потому, что:

  1. Актуальна для многих отраслей экономики;
  2. Дает быструю финансовую отдачу при внедрении;
  3. Требует не только технической, но и семантической подготовки данных.

Участники марафона будут двигаться по темам, без которых невозможно выстроить системную работу с данными. Все примеры взяты из реальной практики. На каждую проблему будут предложены действенные способы ее устранения.

Задания посвящены поиску и устранению ошибок, выявлению неочевидных проблем в данных, построению отчетности и выгрузке подготовленных данных во внешнюю систему визуализации.

Задание

Установите Loginom Community Edition, важно указывать актуальные контактные данные. Если платформа у вас уже установлена, обязательно обновитесь на новую версию!

А пока, полезная информация для знакомства с платформой Loginom.

Про Loginom

Loginom — low-code платформа для продвинутой аналитики данных. Визуальный конструктор позволяет настроить все процессы анализа от интеграции и подготовки данных до моделирования и визуализации.

Редакции платформы:

  • Community — бесплатная настольная версия для некоммерческого использования.
  • Personal — коммерческая настольная версия для автономной аналитической обработки.
  • Team — редакция, предназначенная для небольших команд до 5 человек, ориентированная на решение базовых аналитических задач.
  • Standard — редакция для реализации аналитических проектов и обработки существенных объемов данных в рамках средних организаций или департаментов крупных компаний.
  • Enterprise — редакция, ориентированная на создание отказоустойчивых систем принятия решений и обработки больших объемов данных.

Полезные ресурсы:

Эксперт марафона: Евгений Стучалкин, руководитель и архитектор self-service решений BI2BUSINESS