Инструменты работы с большими данными в электроэнергетике. Кейс Интер РАО-Онлайн

Быстрая очистка, стандартизация, обогащение клиентских данных в миллионы строк с помощью аналитической low-code платформы Loginom. Практический кейс: как добиться обработки одной строки адреса всего за 250 миллисекунд.

Интер РАО-Онлайн — российская ИТ-компания, оператор цифровых решений ПАО «Интер РАО» и других предприятий в сфере энергетики, ЖКХ, рынка бытовых услуг. Интер РАО-Онлайн создает аналитические системы, цифровые платформы, мобильные приложения, сервисы по подписке.

По состоянию на начало 2022 года, Интер РАО-Онлайн это:

  • 3 млн. пользователей решений ежемесячно;
  • 26 млн. действующих клиентов;
  • 57 млн. транзакций в месяц.

Ситуация до старта проекта

В процессе своей деятельности Интер РАО-Онлайн обрабатывает большие наборы данных от компаний-заказчиков цифровых решений. Подавляющее большинство запросов относится к тематике очистки,стандартизации, нормализации клиентских данных.

В Интер РАО-Онлайн типичный бизнес-процесс работы с данными строится следующим образом:

  1. Интер РАО-Онлайн производит выборку данных для проверки и непосредственно саму проверку. Компания разрабатывает и реализует сценарии очистки данных, готовит чистые данные для загрузки в базы данных, хранилища и т.д.
  2. Заказчик цифровых решений проводит согласование, проверку и приемку работ по очистке данных, передает данные для загрузки стороннему ИТ-подрядчику.
  3. ИТ-подрядчик размещает данные в бизнес-системах, дорабатывает и кастомизирует системы для добавления новых атрибутов.

Проблема

Основные проблемы, которые возникали у Интер РАО-Онлайн при текущей организации бизнес-процесса заключались в том, что заказчик цифровых решений:

  1. Не всегда мог четко сформулировать требования по качеству итоговых данных, что затрудняло работу над проектом.
  2. Не всегда вовремя принимал работы по причине того, что ожидание/реальность от реализации проекта не совпадали.
  3. Не всегда доверял экспертизе Интер РАО-Онлайн, просил предоставить доказательства корректности предложенного решения.

95% заказчиков не доверяло автоматизированным решениям по улучшению качества данных. В этой ситуации специалистам Интер РАО-Онлайн требовался инструмент, который, с одной стороны, позволял продемонстрировать прозрачность процедуры работы с клиентскими данными. С другой — обосновывал корректность методологии очистки и стандартизации. С третьей — был достаточно простым для понимания бизнес-пользователей.

Решение

В качестве инструмента работы с большими данными компания Интер РАО-Онлайн выбрала аналитическую low-code платформу Loginom.

В Интер РАО-Онлайн концепция работы с клиентскими данными строится следующим образом:

  1. Профилирование — очистка данных (ФИО, адреса, телефоны, электронная почта...), выявление их статистических характеристик, например, характер распределения величин, наличие выбросов, параметры выборки.
  2. Обогащение — процесс, позволяющий автоматически дополнить данные, если это возможно.
  3. Валидация — проверка данных различных типов по критериям корректности и полезности для применения у конкретного заказчика.
  4. Выявление инцидентов — формирование набора данных, требующих ручного разбора.

Все вышеуказанные процедуры были спроектированы в виде сценариев в Loginom, что позволило автоматизировать очистку 95% клиентских данных, только 5% остаются для ручного разбора.

Подробный бизнес-процесс работы с клиентскими данными реализованный с помощью Loginom приведен в таблице.

ЭтапОперации
Очистка и стандартизацияСоздание полного адресного профиля клиента
 Проверка кода ФИАС (Федеральной информационной адресной системы) на действительность
 Стандартизация и очистка ФИО, проверка на базе типовых и нетиповых имен
 Стандартизация и очистка паспортных данных, проверка их на действительность
 Стандартизация и очистка номеров телефонов, проверка их на существование
 Стандартизация и очистка e-mail адресов, проверка по базе доменов
 Стандартизация и очистка ИНН, СНИЛС
Обогащение данныхПостроение витрины данных с учетом обогащения из внутренних источников (личный кабинет клиента, CRM, система управления электронным документооборотом, 1С)
 Дополнение витрины данных из внешних источников
 Дедупликация данных
Загрузка данныхПодготовка данных для экспорта в БД по согласованным шаблонам
 Контроль исполнения работ по корректировке и обогащению данных

Ниже приведен пример сценария очистки номеров телефонов в Loginom.

Сценарий очистки номеров телефонов в Loginom

Результаты

В качестве ключевых преимуществ Loginom как инструмента работы с большими данными специалисты компании Интер РАО-Онлайн выделяют следующее:

  1. Простую интеграцию с разнообразными источниками данных: файлы (Excel, CSV, XML, Loginom Data File), базы данных, бизнес-приложения (1С:Предприятие), ODBC-источники, веб-сервисы (SOAP, REST), хранилища данных.
  2. Проектирование логики анализа с помощью визуального конструктора, используя более 60-и готовых компонентов обработки как тривиальных, так и сложных, например, основанных на алгоритмах машинного обучения.
  3. Возможность самостоятельного формирования отчетов.
  4. Развитый функционал визуализации результатов с помощью различных инструментов, например, OLAP-куб.
  5. Быструю обработку больших наборов данных в сотни миллионов и миллиарды строк.

Например, при тестировании Loginom для пакетной очистки домашних адресов клиентов скорость обработки составила 4 адреса в секунду или 250 миллисекунд в пересчете на один.

Отдельно аналитики Интер РАО-Онлайн отмечают прозрачность расчетов платформы. Loginom — это полностью «белый ящик», который позволяет наглядно продемонстрировать методику обработки данных. Открытость платформы помогает специалистам Интер РАО-Онлайн легко обосновывать свои наработки, вызывает доверие заказчиков цифровых решений.

Подробнее о внедрении Loginom в выступлении Владимира Анисимова, директора по данным компании Интер РАО-Онлайн:

Если ваша компания заинтересована в использовании Loginom как инструмента очистки, стандартизации, обогащения и нормализации больших данных, свяжитесь с нами.

Другие материалы по теме:

Очистка данных. Кейс коллекторского агентства ЭОС

Очистка данных. Кейс медицинской лаборатории Инвитро

Нейросетевые технологии обработки больших геологических данных. Кейс компании Норильскгеология

#loginom day#loginom day 2022#Big Data#большие данные#кейс#очистка данных#проекты#промышленность

Смотрите также