
DataOps — интегрированная, автоматизированная и процессно‐ориентированная технология совместного управления данными. Внедрение DataOps позволяет превратить данные из пассивного ресурса в стратегический актив, повысив скорость, точность и эффективность бизнес-решений.
В мире получила широкое распространение новая концепция управления жизненным циклом данных, объединяющая процессы разработки и эксплуатации соответствующего программного обеспечения. В ее основе лежит идея организации взаимодействия между командами разработки и эксплуатации с помощью культуры сотрудничества, процессов и технологий, направленных на повышение надежности и качества продукта. Эта концепция начала активно внедряться в различных направлениях информационных технологий, где получила название, состоящее из наименования направления с постфиксом «Ops», что означает «operations» — от англ. оперирование, действие.
Первым направлением, в котором получила развитие «операционная» концепция, стала разработка программного обеспечения. Данная методология стала известна под названием DevOps (development and operations) и была направлена на автоматизацию технологических процессов сборки, настройки и развертывания ПО. Результаты были столь впечатляющими, что концепция получила широкое внедрение в других направлениях. Так, появились:
При этом список «операционных» подходов непрерывно растет, а сами они стали неотъемлемой частью жизненного цикла большинства IT-продуктов. В то же время ops-навыки становятся важным критерием оценки уровня команды разработчиков.
В статье обсуждается подход DataOps — интегрированная, автоматизированная и процессно‐ориентированная технология совместного управления данными, используемая IT‐командами и аналитиками. Процессная ориентированность подразумевает подход, в котором управление данными рассматривается как совокупность взаимосвязанных процессов, направленных на достижение требуемого результата, а не отдельных видов деятельности. В настоящее время DataOps может рассматриваться как новый и независимый подход к анализу данных. Эта методология позволяет извлечь максимальную пользу из данных, превратив их из бесполезного груза в ценный актив.
В то время как DevOps занимается оптимизацией задач разработки программного обеспечения, DataOps фокусируется на автоматизации процессов управления данными и их анализа. Кроме этого, DataOps уделяет первостепенное внимание автоматизации повторяющихся и ручных операций, чтобы освободить специалистов по работе с данными для решения стратегических задач.
Проще говоря, DataOps — это аналог DevOps для данных. Если целью DevOps является организация непрерывного процесса разработки и запуска программного обеспечения, то в DataOps реализуются непрерывный и беспрепятственный доступ к данным и извлечение из них полезных знаний для выработки управленческих решений.
Считается, что данные являются важнейшим ресурсом компании. Но это не всегда так: если данные просто лежат мертвым грузом, то они уже не ресурс, а статья расходов. Чтобы приобрести бизнес‐ценность и стать конкурентным преимуществом, корпоративные данные должны активно использоваться для поиска лучших решений при управлении организацией.
В современном мире нет ни одной IT-компании, способной контролировать и проектировать все процессы управления данными, необходимые предприятию. Данные стали основой, на которой строится сложная корпоративная логика, охватывающая множество приложений. Поэтому основной задачей DataOps является обеспечение быстрой доставки существующих и новых сервисов и продуктов в условиях динамически меняющихся требований, бизнес-окружения, инфраструктуры и семантики данных, предотвращая при этом угрозы их безопасности.
Основными целями DataOps являются:
В отличие от традиционных подходов к управлению данными, в которых аналитические решения разрабатываются длительное время разрозненными командами, DataOps позволяет организовать непрерывный конвейер аналитической обработки данных с оперативной обратной связью.
Таким образом, в основе идеи DataOps лежит превращение аналитики данных в конвейерный процесс, который по аналогии с конвейерами на производстве, скажем, автомобилей, позволяет ускорять выход продукции, снижать издержки и повышать качество за счет его непрерывного контроля. Только вместо автомобилей на конвейерах DataOps будут аналитические решения.
| Традиционный подход | Подход DataOps |
|---|---|
| Значительная доля ручного труда | Автоматизированные конвейеры данных |
| Разобщенные команды аналитиков и инженеров данных | Всестороннее сотрудничество |
| Продолжительные циклы разработки (месяцы) | Сокращенные циклы (дни, недели) |
| Реактивный контроль качества данных и моделей | Проактивный мониторинг и оперативное реагирование на проблемы |
| Ручное развертывание новых версий средств управления данными с простоями | Непрерывная доставка и развертывание новых версий средств управления данными и их интеграция в аналитические конвейеры |
Основными принципами DataOps являются:
Жизненный цикл DataOps — это процесс, который начинается с сырых данных и заканчивается получением знаний с высокой бизнес-ценностью. Он включает в себя следующие этапы:
Мониторинг — непрерывное наблюдение за всем процессом с целью отслеживания отклонений и их оперативного устранения.
Жизненный цикл DataOps
К потребностям бизнеса при работе с данными по схеме, показанной выше, относятся:
Под бизнес-ценностью в этом контексте подразумевают:
Использование технологий DataOps предполагает реализацию комплекса рабочих процессов, основными из которых являются:
Наконец, еще одной важной составляющей технологий DataOps является формирование в компании соответствующей культуры и мышления, без которых самые продвинутые технологии управления данными не обеспечат достижения желаемых результатов. С целью создания успешной культуры DataOps важно согласовать бизнес-цели с общей стратегией управления данными в организации. Для этого могут быть предприняты следующие шаги:
Подводя итог, можно сделать вывод, что внедрение технологий DataOps не является одномоментным проектом, а представляет собой многоэтапный процесс, требующий привлечения и активной деятельности всех работников компании, связанных с работой с данными и заинтересованных в получении ее результатов. Тем не менее, успешная имплементация DataOps позволит не только превратить данные компании из бесполезного груза в ценный стратегический актив, но и сделать это максимально эффективно.
Другие материалы по теме:
Low-code на автопилоте: AutoML и автодокументирование в Loginom