Новый курс знакомит слушателей с концепцией хранилищ и витрин данных, отличиями многомерной и реляционной моделей, а также с современной концепцией проектирования хранилищ – Data Vault. Курс включает практический материал на базе платформы Loginom и аналитической СУБД Vertica.
Новый электронный курс «Основы хранилищ и витрин данных» будет полезен аналитикам для расширения базовых представлений о хранилищах и витринах данных и поможет наработать практические навыки в проектировании и работе с хранилищами.
Курс рекомендован для прохождения специалистам, знакомым с основами баз данных.
Основы хранилищ и витрин данных
6 лекций, самопроверочный тренажер
Работа с хранилищами в Vertica и Loginom (I часть)
3 практических занятия
Работа с хранилищами в Vertica и Loginom (II часть)
3 практических занятия
Работа с хранилищами в Vertica и Loginom (III часть)
3 практических занятия и контрольное задание
В этом разделе слушатель познакомится с моделями хранилищ данных: какие разновидности моделей существуют, и как они проектируются.
В теоретических материалах доступно изложено, чем отличаются многомерные хранилища данных от реляционных, что такое витрины данных, как работает принцип историчности и механизм медленно изменяющихся измерений.
Особое внимание уделено проектированию хранилищ в соответствии с современной методологией Data Vault.
Первая часть практикума знакомит слушателя с особенностями колоночного хранения данных в Vertica, а также демонстрирует порядок скачивания и установки свободно распространяемой версии этой СУБД. Здесь также рассказано о современном средстве администрирования баз данных DBeaver и настройки подключения к хранилищу данных из Loginom.
Практическая часть курса построена на свободно распространяемой версии Vertica Community Edition. При желании полученные знания и навыки можно применить при проектировании хранилищ и витрин данных на любой реляционной СУБД.
Вторая часть практикума посвящена проектированию хранилища данных на основе схемы «Снежинка», импорту данных и получению срезов.
Аналитическая платформа Loginom используется для организации ETL-процессов загрузки (дозагрузки) в хранилище, а также для импорта данных и получения аналитических срезов.
Завершающая часть будет интересна тем, кто хочет ближе познакомиться с методологией Data Vault и принципами поддержки историчности данных.
Помимо традиционной схемы хранилища данных — «Снежинка», в курсе особое внимание уделяется современной модели организации хранилищ под названием «Data Vault», которая нашла применение в условиях стремительного роста объемов данных. Это гибридный подход, обобщающий лучшие свойства 3-ей нормальной формы и схемы «Снежинка».
В процессе знакомства с материалом слушатель пройдет весь цикл проектирования Data Vault: от разделения данных по функциям (концентратор, ссылка, спутник) до наполнения хранилища и извлечения данных с поддержкой историчности (или «на актуальную дату»).
Что такое историчность в Data Vault?
Полноценная поддержка историчности позволяет отследить историю изменений и актуальность фактов на заданный момент времени, а также определить, из какого источника конкретная запись была загружена в хранилище. Это достигается путем постоянного пополнения хранилища без перезаписи «старых» данных и введением таких технических метаданных, как «Дата и время загрузки» и «Источник данных».
В качестве примера в практикуме используются данные по продажам из аптечной сети.
В последние годы широкое распространение в бизнес-аналитике получила технология колоночного хранения данных, обеспечивающая высокую скорость загрузки и обработку больших массивов информации.
По сравнению с реляционными базами данных, основными преимуществами колоночных баз являются:
Среди недостатков колоночного хранения выделяют медленную запись данных и низкую скорость обработки транзакций в реальном времени.
На сегодняшний день существует целый ряд колоночно-ориентированных СУБД, среди которых распространение получили Sybase IQ, Vertica, ClickHouse, и другие.
В качестве системы, поддерживающей данную технологию, была выбрана Vertica – аналитическая СУБД, нашедшая применение в анализе «больших данных» и построении систем, в которых важные место отводится хранилищу или витрине данных.
Более подробную информацию можно найти на странице курса, а стоимость доступа к Loginom e-Learning и список доступных курсов для индивидуальных слушателей или юридических лиц представлены в разделе «Обучение».