Новый электронный курс «Основы хранилищ и витрин данных»

18 марта 2019
0 комментариев

Новый курс знакомит слушателей с концепцией хранилищ и витрин данных, отличиями многомерной и реляционной моделей, а также с современной концепцией проектирования хранилищ – Data Vault. Курс включает практический материал на базе платформы Loginom и аналитической СУБД Vertica.

Новый электронный курс «Основы хранилищ и витрин данных» будет полезен аналитикам для расширения базовых представлений о хранилищах и витринах данных и поможет наработать практические навыки в проектировании и работе с хранилищами.

Курс рекомендован для прохождения специалистам, знакомым с основами баз данных.

6 лекций и 9 практических занятий

  • Основы хранилищ и витрин данных

    6 лекций, самопроверочный тренажер

  • Работа с хранилищами в Vertica и Loginom (I часть)

    3 практических занятия

  • Работа с хранилищами в Vertica и Loginom (II часть)

    3 практических занятия

  • Работа с хранилищами в Vertica и Loginom (III часть)

    3 практических занятия и контрольное задание

Лекционные материалы

В этом разделе слушатель познакомится с моделями хранилищ данных: какие разновидности моделей существуют, и как они проектируются.

В теоретических материалах доступно изложено, чем отличаются многомерные хранилища данных от реляционных, что такое витрины данных, как работает принцип историчности и механизм медленно изменяющихся измерений.

Особое внимание уделено проектированию хранилищ в соответствии с современной методологией Data Vault.

Содержимое лекций

Практические занятия

Первая часть практикума знакомит слушателя с особенностями колоночного хранения данных в Vertica, а также демонстрирует порядок скачивания и установки свободно распространяемой версии этой СУБД. Здесь также рассказано о современном средстве администрирования баз данных DBeaver и настройки подключения к хранилищу данных из Loginom.

Практическая часть курса построена на свободно распространяемой версии Vertica Community Edition. При желании полученные знания и навыки можно применить при проектировании хранилищ и витрин данных на любой реляционной СУБД.

Вторая часть практикума посвящена проектированию хранилища данных на основе схемы «Снежинка», импорту данных и получению срезов.

Аналитическая платформа Loginom используется для организации ETL-процессов загрузки (дозагрузки) в хранилище, а также для импорта данных и получения аналитических срезов.

Завершающая часть будет интересна тем, кто хочет ближе познакомиться с методологией Data Vault и принципами поддержки историчности данных.

Снежника — загрузка данных

Снежинка — просмотр данных и получение срезов

Data Vault — загрузка и дозагрузка данных

Data Vault — просмотр данных и получение срезов

Data Vault

Помимо традиционной схемы хранилища данных — «Снежинка», в курсе особое внимание уделяется современной модели организации хранилищ под названием «Data Vault», которая нашла применение в условиях стремительного роста объемов данных. Это гибридный подход, обобщающий лучшие свойства 3-ей нормальной формы и схемы «Снежинка».

В процессе знакомства с материалом слушатель пройдет весь цикл проектирования Data Vault: от разделения данных по функциям (концентратор, ссылка, спутник) до наполнения хранилища и извлечения данных с поддержкой историчности (или «на актуальную дату»).

Что такое историчность в Data Vault?

Полноценная поддержка историчности позволяет отследить историю изменений и актуальность фактов на заданный момент времени, а также определить, из какого источника конкретная запись была загружена в хранилище. Это достигается путем постоянного пополнения хранилища без перезаписи «старых» данных и введением таких технических метаданных, как «Дата и время загрузки» и «Источник данных».

В качестве примера в практикуме используются данные по продажам из аптечной сети.

Схема хранилища «Фармация» в модели Data Vault

Схема хранилища «Фармация» в модели Data Vault

Колоночные базы данных

В последние годы широкое распространение в бизнес-аналитике получила технология колоночного хранения данных, обеспечивающая высокую скорость загрузки и обработку больших массивов информации.

По сравнению с реляционными базами данных, основными преимуществами колоночных баз являются:

  • высокая скорость обработки запросов (поиск значений осуществляется только по тем колонкам, которые указаны в запросе, а остальные игнорируются);
  • эффективное сжатие данных (каждой колонке, в зависимости от типа данных, соответствует свой метод сжатия, что значительно экономит дисковое пространство).

Среди недостатков колоночного хранения выделяют медленную запись данных и низкую скорость обработки транзакций в реальном времени.

На сегодняшний день существует целый ряд колоночно-ориентированных СУБД, среди которых распространение получили Sybase IQ, Vertica, ClickHouse, и другие.

В качестве системы, поддерживающей данную технологию, была выбрана Vertica – аналитическая СУБД, нашедшая применение в анализе «больших данных» и построении систем, в которых важные место отводится хранилищу или витрине данных.

Более подробную информацию можно найти на странице курса, а стоимость доступа к Loginom e-Learning и список доступных курсов для индивидуальных слушателей или юридических лиц представлены в разделе «Обучение».

 

#обучение#бизнес-анализ#курсы#e-learning

Смотрите также