Данные в корпоративной информационной фабрике

1 апреля 2024

Данные являются одним из наиболее ценных активов любой компании. Однако для того чтобы они приносили пользу, необходима специальная информационная архитектура для работы с ними — корпоративная информационная фабрика. Рассмотрим ее структуру, возможных пользователей и процессы, проходящие в ней.

Корпоративная информационная фабрика (КИФ) — это термин, который используется для описания интегрированной системы управления данными в организации.

Структура КИФ включает следующие компоненты.

Внешнее бизнес-окружение. Именно предприятия и люди из внешнего окружения генерируют транзакции, которые «питают» КИФ, а также являются потребителями результатов ее деятельности.

Приложения. Это семейство систем, из которых КИФ собирает необработанные, детализированные бизнес-данные. Они обеспечивают повседневную, рутинную деятельность, такую как обработка заказов, работа с кредиторской задолженностью и т.д.

Оперативный склад данных (ОСД). Предметно-ориентированный, интегрированный, актуальный и изменчивый набор детализованных данных, используемый для поддержки оперативного принятия тактических решений в компании.

Модули интеграции и трансформации. Здесь данные, собранные приложениями, преобразуются в корпоративную структуру.

Хранилище данных (ХД). Предметно-ориентированный, интегрированный, поддерживающий хронологию набор детализированных и агрегированных данных, используемый для поддержки процесса принятия стратегических решений.

Витрины данных. Подмножества данных из хранилища, адаптированные для поддержки аналитических требований определенного бизнес-подразделения.

Исследовательское и аналитическое хранилище данных. Именно эти компоненты используются для исследовательской и аналитической обработки данных, связанной с выполнением больших и сложных аналитических запросов. Оно физически изолируется от основного хранилища, поэтому аналитическая деятельность, связанная с большими нагрузками на системы хранения, не влияет на производительность всей системы.

Альтернативное хранилище данных. Оно предназначено не для поддержки оперативной деятельности и принятия решений, а для хранения больших массивов детализированных данных, накопленных в КИФ за длительные периоды. Стоимость хранения в них в разы меньше, чем в основном хранилище, поэтому его размер можно наращивать практически до бесконечности.

Системы поддержки принятия решений. Представляют собой целый комплекс приложений, центром существования которых является основное ХД. Эти приложения настолько велики и своеобразны, что образуют отдельный компонент КИФ.

Процессы и пользователи

Каждому пользователю в КИФ соответствует определенная роль. Кроме этого, в КИФ реализуется множество рабочих процессов, основными из которых являются:

коммуникации с клиентами;
управление запросами;
доставка информации;
управление конфигурациями;
управление качеством данных;
системное администрирование.

Пользователи КИФ и процессы в ней, возможно, являются одним из наиболее сложных вопросов для компании, поскольку при планировании соответствующей деятельности она должна учитывать свою культуру, политику, экономику, географию и другие особенности. Например, компании, которые традиционно управляли своими информационными системами централизованно, могут столкнуться с проблемами реализации витрин данных, ориентированных на поддержку отдельных направлений бизнеса и соответствующих подразделений.

С другой стороны, компании, которые управляют информационными системами децентрализованно, т.е. на уровне бизнес-подразделений, могут столкнуться с проблемами при создании централизованного корпоративного ХД и управления им.

Особенности данных

Самый простой способ разобраться, как работает КИФ, — это понять, какие данные являются входными и выходными для нее. Сырые необработанные детализированные данные уточняются приложениями, а затем передаются на уровень интеграции и преобразования, где происходит трансформация рабочих операционных данных в корпоративные.

Данные передаются с уровня интеграции и преобразования в ОСД и ХД. В хранилище могут поступать данные как из ОСД, так и с уровня интеграции и преобразования. После загрузки они становятся доступными для анализа и поддержки принятия решений.

Описанная архитектура и потоки данных похожи на настоящую фабрику. Сырье и комплектующие поступают на завод и обрабатываются специалистами. Сборочные линии затем превращают сырье в изделия. Некоторые из них становятся полностью готовыми продуктами, остальные представляют собой полуфабрикаты, из которых можно в дальнейшем собрать множество готовых.

Ключевые компоненты КИФ

Сырые детализированные данные

Эти данные обычно собираются на уровне приложения и загружаются в ХД и ОСД через уровень ИТ. Однако некоторые из них можно собирать и загружать непосредственно в ОСД. Это происходит, когда конечным пользователям требуется доступ к данным, которые в настоящее время не управляются приложением.

По сути, ОСД становится «авторитетным» источником данных и исходной системой для ХД. Можно попытаться управлять ими непосредственно в хранилище, однако это неэффективно.

ХД предназначено для поддержки стратегических решений на основе обобщенных данных, и ему просто не хватает функциональности для эффективного хранения и обработки транзакционной информации и доступа к ней в режиме реального времени. Кроме того, если хранилище станет «авторитетным» источником сырых данных, вполне вероятно, что ему придется поддерживать и оперативную деятельность, для расширения которой оно и было предназначено.

Внешние данные

Ключевым источником информации в КИФ являются внешние данные, которые обычно формируются за ее пределами другими организациями. Они могут быть практически любого типа и объема, как структурированными, так и неструктурированными, детализированными или обобщенными.

Одним из фундаментальных отличий внешних данных от внутренних является возможность управления ими. Если необходимо изменить внутренние данные, всегда можно скорректировать систему их регистрации и сбора. Поскольку источники внешних данных находятся за пределами КИФ, изменить в них что-либо изнутри нее является невозможным.

Единственный реальный выбор, который могут сделать архитекторы КИФ, — это либо использовать внешние данные «как есть», либо вообще отказаться от них. Исключением является модификация структуры ключей внешних данных при их вводе в КИФ. Это происходит довольно часто при необходимости сопоставить внешние данные с существующим клиентом. При этом делается попытка сравнить имя и адрес, связанные с внешними данными, с именем и адресом в базе данных клиентов. Если совпадение обнаружено, внешний ключ заменяется внутренним идентификатором клиента, а внешние данные сохраняются.

Во многих случаях внешние данные будут иметь структуру ключей, которая сильно отличается от таковой в КИФ. Ключи внешних данных необходимо изменить, чтобы их можно было использовать по назначению в рамках КИФ.

Внешние данные могут быть доступны любому компоненту КИФ. Если они будут использоваться в нескольких витринах данных, рекомендуется сначала поместить их в ХД, а затем переносить в витрины по отдельности, что позволит обеспечить согласованность.

Компонент, в котором внешние данные играют наиболее важную роль, — это исследовательское хранилище. Его используют аналитики в стремлении получить новые представления о бизнесе.

Справочные данные

Справочными называют данные, которые представляют собой стандартизированный набор значений или кодов для классификации и единообразного определения других (обычно основных) данных. Они придают им контекст и значение, служа основой для последовательной и точной интерпретации и анализа информации.

В отличие от транзакционных данных, которые фиксируют конкретные бизнес-события и постоянно изменяются с течением времени, справочные остаются постоянными или меняются очень медленно, служат основой для интерпретации и анализа данных в различных приложениях, системах и процессах.

Основная цель справочных данных состоит в следующем.

Устанавливать общие определения, классификации и связи для бизнес-объектов.
Обеспечивать единообразие и точность представления.
Повышать качество данных, оптимизируя их интеграцию и упрощая обмен внутри и между организациями.

В финансовой сфере примерами справочных данных могут быть идентификаторы ценных бумаг и финансовых инструментов, таких как акции, облигации. В электронной коммерции — это коды товаров и товарных групп. В маркетинге — адреса и телефоны клиентов.

Имея в распоряжении отдельно хранящиеся массивы справочных данных, можно оперативно обращаться к ним, не перегружая при этом систему. Именно их точность и актуальность гарантируют корректность выполнения операционных действий, например, выставления счета клиенту.

Объем справочных данных в КИФ относительно мал по сравнению, скажем, с основными. Из-за этого к ним часто относятся как к второстепенным. Кроме этого, справочные данные очень стабильны, т.е. изменяются достаточно редко, поэтому вопросам управления ими уделяется мало внимания.

Справочные данные обычно принадлежат всей компании, а не отдельным подразделениям. Поэтому для них, как правило, не устанавливают специальные регламенты обработки. Между тем они заслуживают такого же внимания, как и любой другой вид данных в КИФ.

Есть по крайней мере три причины, по которым справочные данные играют важную роль в КИФ.

Могут упростить обработку на уровне интеграции. Если справочные данные в приложении и хранилище совпадают, то задача интегрирования существенно упрощается.
Являются одним из основных способов взаимодействия различных компонентов. Независимо от того, используются ли в ней витрины данных, исследовательское хранилище, оперативный склад и т.д. Правильно сформированные и поддерживаемые справочные данные помогут гарантировать, что один и тот же объект имеет одинаковую интерпретацию во всех частях КИФ.
Со временем устаревают. В хранилище по мере устаревания справочных данных должна храниться их хронология, чтобы исторические данные могли иметь ссылки на соответствующие справочные.

Исторические данные

Даже если данные поступили в КИФ несколько секунд назад, они уже могут считаться историческими в том смысле, что отражают уже произошедшее бизнес-событие.

Исторические данные обеспечивают основной контекст для бизнес-операций и имеют самый большой объем в КИФ. Поэтому их еще называют основными (мастер) данными, а для эффективного управления ими часто создают специальные системы управления мастер данными (МДМ-системы).

Исторические данные в КИФ имеют следующие особенности:

Чем длиннее история, тем больше объем данных.
Чем моложе данные, тем точнее они отражают текущую ситуацию в бизнесе.
Чем актуальнее данные, тем больше вероятность того, что они будут использоваться в детализированном виде.
Чем старше данные, тем больше вероятность того, что они будут использоваться в агрегированном виде.

Уровень приложений КИФ содержит наиболее актуальные данные за период до 30 дней. Конечно, само понятие актуальности может различаться в зависимости от сферы деятельности. В некоторых отраслях информация может храниться за период в 30 дней, а в других за год.

В ОСД период хранения, такой же, как на уровне приложений. Единственная разница в том, что там содержатся интегрированные данные.

Основное ХД содержит информацию возрастом не менее 24 часов и историей от 5 до 10 лет. На практике длина истории также зависит от сферы деятельности бизнеса.

Наибольший объем исторических данных содержится в альтернативном хранилище, где архивируется большая часть информации из основного хранилища.

Исторические данные содержатся в исследовательском и аналитическом хранилищах, но их использование в этих средах обычно ориентировано на конкретные проекты, поэтому их история довольно ограничена. Следовательно, эти компоненты КИФ не требуют больших объемов долговременного хранения.

Одной из проблем, связанных с историческими данными, является перекрытие периодов их хранения в различных компонентах КИФ. Первое из них происходит между уровнем приложений и ОСД. В первом содержатся детализированные данные, а во втором — интегрированные. Поэтому, несмотря на перекрытие, полного дублирования не происходит.

Второе перекрытие имеет место между ХД, где история данных начинается от 24 часов, и уровнем приложений, где период хранения около 30 дней. Здесь дублирование становится возможным, хотя и не обязательным.

Метаданные

Кроме основных и справочных, в КИФ содержится еще одна разновидность данных, которые играют ключевую роль в ее работе — метаданные. В наиболее общем понимании метаданные — это «данные о данных». Они содержат информацию о свойствах и структуре других объектов данных (основных, справочных и т.д.). Метаданные содержат сведения о признаках и свойствах бизнес-объектов, которые позволяют автоматически управлять ими в больших информационных потоках.

В КИФ хранятся и обрабатываются в основном структурированные данные: в виде таблиц с типизированными полями (столбцами). Тогда метаданными являются имя таблицы, имена и типы полей, допустимое количество символов в них, описания представления даты и времени, ограничители строк и т.д. Если данные представлены текстом (т.е. являются слабоструктурированными), в них тоже присутствуют метаданные: символы форматирования, сноски, колонтитулы и т.д. Иными словами, для создания и обработки структурированных данных всегда необходимы метаданные.

На первый взгляд отличить данные от метаданных просто: первые создают контекст для бизнес-деятельности, а вторые служат для обеспечения функционирования системы, которая эти данные хранит и обрабатывает. На самом деле невозможно провести однозначное разделение по следующим причинам:

Что-то может являться как данными, так и метаданными. Например, заголовок таблицы можно одновременно отнести как к метаданным (как элемент метаданных — идентификатор для обращения к таблице), так и к собственно данным (имя таблицы создает контекст для понимания ее содержимого).
Данные и метаданные могут меняться ролями. Например, поле таблицы может использоваться в качестве ключа, т.е. нести как полезную информацию, так и выполнять служебную функцию.
Возможно создание мета-мета-…-метаданных. Поскольку метаданные сами по себе также являются данными, то можно создать для них метаданные.

Метаданные могут формироваться вручную или генерироваться автоматически. При этом первые являются более ценными, поскольку могут отражать взгляд аналитика на решаемую задачу. Ручное добавление метаданных возможно только для небольших объемов, поэтому в условиях КИФ, когда данные идут сплошным потоком, оно нереализуемо.

В КИФ могут использоваться три основных вида метаданных:

внутренние — описывают структуру или составные части объектов данных. Например, формат представления чисел, времени и даты в таблице, типы полей и т.д;
Административные — обеспечивают процессы обработки информации в КИФ, например очистки, трансформации, интегрирования;
Описательные — описывают природу бизнес-объектов и их признаки. Например, коды товаров и товарных групп.

Кроме этого, метаданные можно разделить на технические и бизнес-метаданные. Первые используются для организации управления и обработки данных в КИФ, а вторые создают контекст для бизнес-данных. Например, это могут быть бизнес-правила, требования, описывающие качество данных, допустимые значения для справочных данных и т.д.

В приведенной выше терминологии внутренние метаданные полностью относятся к техническим. Административные могут относиться как техническим, так и к бизнес-метаданным. Описательные — это в основном бизнес-метаданные.

Говоря о роли метаданных в КИФ, можно назвать их клеем, скрепляющим ее различные компоненты в единое целое. Именно благодаря ним один компонент КИФ взаимодействует с другими. Однако при их использовании возникает противоречие между индивидуальностью метаданных для каждого компонента фабрики и необходимостью их разделяемого использования.

В КИФ можно использовать две архитектуры для хранения метаданных: централизованную и автономную. Первая предполагает создание центрального репозитория метаданных, вторая реализует их хранение метаданные в тех компонентах КИФ, с которыми они связаны.

Центральный репозиторий, с одной стороны, повышает эффективность управления метаданными в плане поддержки их согласованности и качества. С другой, централизованная архитектура ограничивает возможности использования метаданных подразделениями компании, а также аналитиками. Автономная архитектура тоже не является оптимальным решением, поскольку не гарантирует единообразную интерпретацию метаданных всеми компонентами КИФ. Поэтому на практике часто используют некоторую комбинированную архитектуру, обеспечивающую определенный баланс.

Другие материалы по теме:

Информационная экосистема предприятия

Утечка данных в машинном обучении

Орешков Вячеслав

Рязанский государственный радиотехнический университет, Доцент кафедры САПР ВС

Профиль