Ты не пройдешь! Ловим ошибки данных на входе

Интерфейс Loginom. С чего начать?

В предыдущие дни решалась аналитическая задача — сегментация клиентов и построение финансового портрета контрагентов разных типов. Эксперт, взглянув на данные, скорее всего заметит некоторые странности. Причем чем больше опыта у специалиста, тем больше подозрительных нюансов он может обнаружить.

Однако хочется перейти от субъективных ощущений к чему-то более конкретному и оценить в какой степени выявленные странности являются проблемами. Для этого в Loginom есть набор инструментов, позволяющий контролировать и улучшать качество данных. Далее мы расскажем, как это можно сделать.

Анализ качества данных

Важно! Если вы не сделали практику в теме «Профиль 360 или узнать «в лицо» каждого клиента», то предварительно требуется открыть решение задания предыдущего дня, скачав его ниже.

rarРешение практического задания. День 5.rar

В начале необходимо зайти в настройки визуализатора узла Продажи, в котором загружены транзакции.

Затем добавить в узел визуализатор Качество данных.

После открытия визуализатора будет отображен список полей, качество которых требуется проверить. Т.к. вначале нет предположений в каких именно колонках могут быть проблемы — лучше выбрать все. Выбор оцениваемых показателей задается в соответствующем окне.

Настройка показателей качества данных

В окне настроек можно выбрать, какие проверки и статистические данные будут рассчитаны в полях. Надо включить еще одну опцию — Уникальные.

После нажатия кнопки Рассчитать статистики запустится обработка, которая  может занять определенное время.

Для контроля процесса выполнения можно открыть панель процессов, нажав на букву i в левом нижнем углу. В сложных подмоделях бывает непросто оценить время, необходимое для завершения расчетов, а на панели процессов будут видны все выполняемые операции.

Кстати, во время выполнения расчетов интерфейс программы не блокируется. Можно продолжать работать с данными уже активированных узлов или достраивать сценарий. Loginom распараллеливает обработку насколько это возможно, что обеспечивает высокую скорость выполнения сценариев.

Сводные результаты проверки

По окончании расчетов будет отображена сводная информация по всем найденным проблемам.

Система выполнила указанные проверки и разместила поля в порядке убывания количества проблем.

Пропуски

Пропуски — количество null-значений в полях. Null — это не пробел или ноль, а отсутствие данных. Если в текстовом поле есть непечатный символ, например пробел или табуляция, то он не является null-ом, т.е. пропуском, хотя на экране выглядит так же.

Является ли пропуск проблемой или нет — зависит от назначения поля. При работе с атрибутом, присутствие которого опционально, это может и не быть проблемой, хотя на пропуски и в этом случае все равно стоит обратить внимание.

Но наличие null-ов в полях, используемых для расчета показателей, почти всегда создает трудности. В анализируемой выборке в поле Себестоимость 9.97% пропущенных данных.

Причин такой ситуации может быть много. Например, при приемке товара не заносилась информация о стоимости закупки, или в процессе импорта данных был неверно настроен формат дробного числа.

В ранее подготовленном сценарии валовая прибыль считалась как разница между выручкой и себестоимостью. Наличие пропусков в поле Себестоимость привело к неверным цифрам.

При выполнении математических операций с числом и пустым (null) значением возвращается пустое значение. Можно обратить внимание, что процент пропусков в поле Валовая прибыль такой же, как в поле Себестоимость. А значит в отчетах получается заниженная прибыль.

Много пропусков в полях Юрлицо, Адрес, Машина доставки. Забегая вперед можно сказать, что это корректно с технической точки зрения, т.е. ошибки нет. Однако подобная картина является указанием на то, что анализируется весьма неоднородный массив данных с точки зрения процессов, которые его формируют.

Выбросы и экстремальные значения

Выбросы и экстремальные значения показывают наличие значений, статистически выбивающихся из конкретного поля. Является ли это проблемой, зависит от того, как планируется использовать эти данные.

При необходимости визуализировать отчет по фактическим событиям — проблем нет. Если в среднем были продажи на 1 млн рублей в месяц, а однажды была отгрузка на 10 млн рублей крупному заказчику, то именно это и требуется показать в отчетах, потому что все так и было.

Но если эти данные надо использовать для моделирования, прогнозирования, расчета статистически значимых показателей, выбросы и экстремальные значения могут испортить картину. Например, завысить средний чек у клиентов до уровня VIP и создать предпосылки для неверных выводов при планировании.

По смыслу выбросы и экстремальные значения довольно близки:

  • Выброс — значение, выбивающееся из общего ряда;
  • Экстремальное значение — это очень большой выброс.

Правила определения выбросов и экстремальных значений определяются в настройках параметров.

Пробелы в конце

Пробелы в конце — тип ошибок, который трудно обнаружить на глаз. Например, определить разницу между названиями «Компания Орион» и «Компания Орион », если значения не взяты в кавычки, практически нереально. Loginom позволяет подсвечивать подобные ситуации.

При этом под пробелами подразумевается не только собственно пробел, который находится на клавиатуре. Но и целый набор пробельных символов, вроде переноса строк или табуляции.

Обычно наличие таких значений является ошибкой ввода данных в учетные системы. Это может создать проблемы, когда они будут связываться со значениям из другой системы, но уже без пробелов. Для программы это будет 2 разные строки, и при фильтре по «Компания Орион» в выборку не попадут значения, связанные с «Компания Орион ».

Для исправление конкретно этой проблемы в калькуляторе есть функция Trim(), обрезающая открывающие и закрывающие пробелы в строке.

Более подробно о всех типах проблем можно прочитать в справке Loginom.

Анализ дискретных полей

Помимо сводки есть более детальное представление статистики по отдельным полям в зависимости от вида данных.

В визуализаторе Качество данных нужно перейти на вкладку Дискретные. Дискретными являются текстовые и логические поля, но могут быть и числовые или дата/время, если это будет явно задано.

Затем необходимо активировать кнопки Детализация и Гистограмма в правом верхнем углу.

С помощью детализации можно увидеть конкретные проблемные значения, кликнув по соответствующей ячейке.

Гистограмма показывает частоту, с которой значения встречаются в поле. Она является хорошим индикатором на предмет потенциальных проблем, которые поле может привнести в аналитику.

Когда для дискретного поля гистограмма выглядит так, как на картинке выше, это означает, что большинство значений поля имеет одно значение, а следовательно:

  1. Использовать его как аналитический признак может быть нецелесообразно, т.к. недостаточно разнообразия данных, чтобы делать выводы.
  2. Возможно, в датасете намешаны данные из разных по смыслу процессов.

Примеры гистограмм полей, которые более приемлемы для аналитики, показаны стрелками.

Варианты следующие:

  1. Все столбцы маленькие, а последний большой — это значит, что в поле нет значений, явно выбивающихся из общей частотности. Большой последний столбец — это прочие, т.е. значения, не вошедшие в топ первых по частоте.
  2. Все столбцы или их существенная часть хорошо различима на гистограмме. Значит значений немного и они представлены достаточно равномерно.
  3. Столбцы убывающей высоты и большая последняя колонка — комбинация вариантов 1 и 2.

Кстати, в детализированной гистограмме (справа) можно переключать режимы отображения, например, показать все уникальные значения поля. Это простой способ быстро посмотреть значения по любому полю таблицы.

Анализ непрерывных полей

Для непрерывных полей гистограммы строятся по диапазонам значений.

Для экспресс-анализа имеет смысл обратить внимание на диаграмму размаха. Чем более эта диаграмма симметрична и центрирована, тем более равномерно распределены значения поля. А значит, тем выше однородность процессов, формирующих эти данные.

Пример подозрительных диаграмм можно посмотреть в строках, начиная с четвертой. Так выглядят диаграммы с экстремальными выбросами.

Такие поля чаще всего не подходят для использования в моделировании, сегментации и аналогичных задачах. Их рекомендуется нормировать или очистить от выбросов.

Получить разбор заданий

Заключение и домашнее задание

Визуализатор Качество данных — отличный инструмент для экспресс-аудита данных, особенно на этапе разведочного анализа. Однако, помимо технических проблем, нужно понимать, насколько текущий массив данных подходит для решения бизнес-задач.

Наша задача — построить клиентскую аналитику оптовых продаж, а также финансовый портрет клиентов в разрезе их уровней. Технически, мы ее уже решили. А теперь, с помощью узла Качество данных проведите поиск проблем, которые ставят под сомнение достоверность и качество результатов, которые мы получили.

Какие проблемы в данных искажают картину?

Эксперт марафона: Евгений Стучалкин, руководитель и архитектор self-service решений BI2BUSINESS