Качество данных — обобщенное понятие, характеризующее степень пригодности информации для анализа. Существует целый ряд критериев, которые используются для оценки правильности, полноты, точности и надежности данных.
Большинство компаний рано или поздно приходят к идее принятия решений на основе данных. Этот подход, называемый Data Driven, является альтернативой идее HiPPO (highest paid person’s opinion) — мнение самого высокооплачиваемого сотрудника. Он позволяет сократить число ошибок, повысить объективность решений и качество управления.
Если необходимость сбора и хранения данных с целью принятия решений является аксиомой для большинства организаций, то вопросам обеспечения их качества уделяется значительно меньше внимания, что довольно странно. Ведь плохие данные приведут к плохим решениям, — в полном соответствии с принципом GIGO (garbage in, garbage out), т.е. мусор на входе — мусор на выходе.
Крупные компании, больше других зависящие от данных, обратили внимание на вопрос оценки своих потерь из-за плохого качества данных. Согласно опросу Gartner, проведенному в 2018 году, они считают, что низкое качество данных является причиной убытков в среднем в размере 15 миллионов долларов в год. При этом чем позже выявляются плохие данные, тем дороже обходится исправление ошибок.
Согласно отчету компании Forrester Research сохранение низкокачественных данных в корпоративных системах лишает бизнес продуктивности, поскольку в этом случае требуется постоянно проверять данные, чтобы гарантировать их точность.
Качество данных (data quality) — обобщенное понятие, отражающее «степень пригодности информации для решения соответствующей задачи» (по ГОСТ Р ИСО 8000-2-2019). Оценка данных как «качественные» или «некачественные», а также ее разные градации (плохая, хорошая, отличная) — имеют субъективный характер и должны рассматриваться непосредственно в контексте решаемой задачи.
Существует ряд критериев, которые применяются для оценки правильности, полноты, точности и надежности данных. Наиболее используемые из них перечислены ниже.
Условно критерии можно разбить на 3 группы. Первая – это требования к содержанию данных, вторая – вопрос согласованности информации, а третья – удобство работы.
Наиболее критичны проблемы первой группы. Их игнорирование может привести к полной невозможности анализировать. Отсутствие согласованности снижает доверие к принимаемым решениям, а неудобство использования повышает затраты.
Правильность (accuracy) — это соответствие данных реальности и корректность их интерпретации. Например, корректность данных о количестве выпускаемой продукции зависит от того, как они были получены, учтены и внесены в системы учета. Очевидно, что неправильные данные нельзя использовать для принятия решений.
Полнота (completeness) — достаточность объема, глубины и широты наборов данных. Неполнота приводит либо к невозможности анализа, либо к необходимости отталкиваться от некоторых предположений или допущений относительно пропущенной информации. Полнота может касаться как пропусков в атрибутах анализируемых объектов, например, не заполненные сведения в справочнике товаров, так и отсутствия части исследуемых данных, например, сведений за определенный период.
Релевантность (relevance) — показатель того, насколько данные соответствуют целям и решаемым задачам. Например, сведения о продажах бумажных книг могут быть нерелевантными для рынка электронных, либо данные о предпочтениях клиентов в одной стране могут полностью отличаться от пользователей в другой.
Объективность (objectivity) — уверенность, что данные не содержат предвзятых мнений или субъективных оценок. Особенно много проблем с объективностью возникает, когда анализируются данные опросов или обратной связи от клиентов. Сказывается человеческий фактор: оценка качества одной и той же услуги/товара одним пользователем может кардинально отличаться от мнения другого.
Валидность (Validity) — соответствие многочисленным атрибутам, связанных с элементом данных: тип, точность, формат, диапазоны допустимых значений и так далее. Например, в поле e-mail строка должна соответствовать стандарту написания электронных адресов.
Точность (precision) — детальность измерения и фиксации данных. В зависимости от особенностей процесса и целей анализа показатели необходимо фиксировать с точностью до дня, часа, минуты или секунды, либо вес товара измерять с точностью до тонны или грамма.
Своевременность (Timeliness) — время после сбора данных, по прошествии которого они становятся доступными для анализа. Оно должно соответствовать скорости анализируемого процесса. Корректные, но устаревшие данные бесполезны для принятия оперативных решений.
Уникальность (Uniqueness) подразумевает, что ни один объект не существует в наборе данных более одного раза. Наличие дублей может приводить к несогласованности и противоречиям вследствие отсутствия единой версии правды.
Целостность (integrity) — наличие корректных ссылок между данными и их соответствие установленным правилам и ограничениям. Ссылочная целостность предполагает, что все ссылки из данных в одном столбце таблицы на данные в другом столбце той же или другой таблицы являются допустимыми, т.е. не будет ситуации, при которой запись в таблице продаж ссылается на покупателя, отсутствующего в справочнике клиентов.
Согласованность (consistency) — соответствие данных друг другу и их логическая непротиворечивость. Например, соответствие пола человека его имени, а даты рождения – возрасту. Если данные не согласованы, это может указывать на ошибки или неточности в их сборе или обработке.
Когерентность (coherence) — согласованность с другими источниками данных и логикой процесса, который они описывают. Например, данные о затратах на производство не должны противоречить данным о количестве продукции, произведенной в тот же период.
Надежность (reliability) — возможность повторного получения одинаковых результатов. Если результаты измерения получатся разные в зависимости от условий, то снижается доверие к принятым на их основе решениям.
Доступность (accessibility) показывает, насколько легко пользователю узнать, какие данные имеются в его распоряжении, а также получить доступ к ним. Причем речь может идти в том числе и о метаданных, описывающих анализируемую информацию. Например, данные, которые доступны только в печатном виде сложно оперативно использовать для анализа.
Удобство использования (usability) характеризует, насколько легко и просто использовать данные для изучения определенной проблемы. Например, информация может быть в наличии, в том числе и в электронном виде, но ее применение для анализа может требовать сложной предобработки. Это особенно характерно для неструктурированных данных: изображения, аудио, видео.
Универсальность (universality) определяет, насколько данные могут использоваться для разных целей и задач. Например, информация о продажах универсальная, т.к. может пригодиться для исследования различных вопросов: финансы, логистика, маркетинг, планирование производства.
Контролируемость (Traceability) или прослеживаемость — возможность осуществления контроля качества и происхождения данных посредством отражения их источников, истории создания, изменения, преобразования, удаления, хранения и передачи.
Переносимость (Portability) — возможность переноса данных между разными платформами или службами без потери их целостности или иных препятствий. Сложности интеграции, импорта или экспорта данных существенно снижают их ценность.
Управление качеством данных — это не разовое действие, а непрерывный процесс. Он включает в себя этапы наблюдения, анализа и совершенствования информации. Цель – упреждающий контроль качества данных, а не устранение изъянов только после их выявления.
Для этого существует множество методов и подходов:
В конечном счете нужно внедрение политики управления данными. Это может включать в себя определение ответственных лиц, процедур и сроков обновления данных. Конечно же, одним из важных аспектов борьбы за качество данных является обучение персонала. Работники должны быть обучены правилам заполнения и обработки информации, а также использованию инструментов для проверки и очистки данных.
Существует множество инструментов, которые позволяют автоматизировать процессы проверки, очистки и обновления данных. Их использование позволяет сократить время и ресурсы, необходимые для повышения качества информации и воплотить в жизнь Data Driven подход к принятию решений.
Другие материалы по теме: