В курсе подробно рассматриваются проблемы, связанные с ведением нормативно-справочной информации организации (НСИ): неполнота, противоречивость, недостоверность или некорректность описаний объектов, несоответствие форматов и другие вопросы. Обсуждаются основные способы очистки и стандартизации объектов: словари, классификаторы, частотный анализ, контрольные числа, регулярные выражения. Практическая часть построена на решении задач в Loginom.
Для прохождения курса рекомендуется иметь базовые навыки работы с платформой Loginom.
Объемы данных. Качество данных. Причины загрязнения. Виды ошибок в данных. Понятия очистки и стандартизации данных. Причины необходимости очистки. Показатели качества данных.
Основные методы очистки. Использование справочников и таблиц замены. Анализ строк. Регулярные выражения. Частотный анализ. Контрольные числа. Отработка теории на практике в Loginom.
Блок 3. Основы регулярных выражений
Регулярные выражения и история их возникновения. Диалекты регулярных выражений. Регулярные выражения Perl. Возможности регулярных выражений. Инструменты для проверки. Метасимволы. Квантификаторы. Дополнительные опции. Примеры. Знакомство с регулярными выражениями в Loginom.
Применимость методов. Использование одного метода. Комбинирование методов. Общий алгоритм очистки данных. Решение задачи по очистке и стандартизации списка регионов в Loginom.
Практический кейс для самостоятельного решения. Итоговый тест.
pdfПодробная программа курса