Под начинающим аналитиком в этой статье мы в большей степени подразумеваем специалиста с техническим или экономическим образованием, но не исключаем и другую непрофильную специализацию.
В современном мире тяжело представить компанию, которая не собирает данные и не ориентируется при этом на «data-driven»-подход. На фоне информатизации более востребованными становятся специалисты, которые помогают бизнесу принимать решения на основе данных: Data Scientists и аналитики данных. Эти профессии являются самыми высокооплачиваемыми и перспективными специальностями в IT-сфере, а спрос на них продолжает расти.
Специалисты в предметных областях постепенно переквалифицируются в аналитиков данных. Связано это с тем, что бизнес-эксперты являются основными носителями ключевых знаний о компании и хотят использовать эти данные. У них есть информация и сотни идей, как улучшить бизнес. Например, маркетологам важно проводить маркетинговые исследования, финансистам — искать зависимость между финансовыми показателями, а специалистам по запасам — прогнозировать спрос на продукцию.
Однако в большинстве компаний весь анализ данных завязан на IT-отделе. Из-за этого возникает ряд проблем:
У бизнес-пользователей всё чаще появляется необходимость анализировать данные собственными силами, проверять гипотезы на практике и получать работающие прототипы систем, быстро решать свои задачи, не дожидаясь разработчиков. Это стремление привело к появлению новой роли в аналитике — гражданский специалист по работе с данными (Сitizen data scientist).
Этот специалист умеет создавать и генерировать модели продвинутой аналитики и прогнозирования. При этом основная его роль выходит за рамки статистики и аналитики — прежде всего он остается бизнес-экспертом внутри своего подразделения. Сitizen data scientists не является профессионалом в области интеллектуального анализа данных и Big Data, у него нет специального образования и глубоких навыков в этой сфере. Зато он привносит в этот процесс собственный опыт и уникальные предметные знания.
Для воплощения своих идей в жизнь гражданскому специалисту по работе с данными требуется подходящее программное обеспечение. Именно развитие технологий послужило ключевым фактором роста числа Сitizen data scientists. Аналитические инструменты для неспециалистов стали доступнее в использовании, обеспечивают упрощённую подготовку, обработку данных и расширенную аналитику, включающую в себя Machine Learning и другие инструменты Data Science.
Какой инструмент для анализа данных выбрать начинающему аналитику? Давайте рассмотрим популярные классы систем для анализа данных и их особенности.
Бытует теорема о полноте Excel: любой бизнес-процесс можно описать достаточно «жирным» excel-файлом. Действительно, этот табличный редактор — настольный и универсальный инструмент любого специалиста по работе с данными. До сих пор ни один инструмент аналитика не может превзойти Excel по популярности.
Быстро произвести разнообразные расчёты, построить сводные таблицы, рассчитать прогноз и показать графики руководству — для этого вполне подходит табличный редактор. Анализ данных в Excel можно выполнить с помощью статистических процедур и функций (корреляция, регрессия, скользящее среднее и т.д.). Есть надстройки и приложения Mictosoft, которые расширяют возможности Excel для очистки данных, создания моделей и отчётов сложной структуры, инструменты визуализации и другие.
Производительность Excel — недостаток программы, который особенно ощущается при росте объёма данных до одного миллиона строк: система начинает медленно производить вычисления. Иногда из-за этих трудностей с Excel-таблицами становится невозможно работать.
Проблемы с Excel появляются, когда компания растёт, в подготовке одного отчёта в Excel участвуют несколько сотрудников, которые постоянно обмениваются файлами, требуется автоматизация или сложная многоэтапная обработка. Например, каждую неделю разные подразделения готовят отчёты для коммерческого директора, склеивая данные из нескольких Excel-таблиц и выгрузок из 1С, с десятками вкладок и ссылок в нескольких версиях, да ещё постоянно изменяют и «улучшают» эти отчёты. Написание макросов на встроенном в MS Office языке помогает решить проблему, но ненадолго. В конце концов, компания сталкивается с состоянием, для которого даже есть собственное определение — Excel Hell.
Резюме:
+ : Excel знаком каждому, поэтому подойдёт всем начинающим аналитикам. Сфера применения: для быстрого индивидуального исследования гипотез на небольшом объёме структурированных данных.
— : Когда танцы с бубном над подготовкой данных и сводными отчётами начинают занимать до нескольких часов в сутки, данных становится много, информационная модель усложняется, с отчётами работает несколько человек, появляется необходимость в изменении бизнес-процессов и переходе на другой инструмент.
Традиционные системы Business Intelligence — удобные инструменты представления и визуализации информации. К ним относятся Power BI, Tableau и другие.
BI-платформы позволяют собирать данные из различных источников, строить регулярные красивые отчёты и интерактивные дашборды для руководителей с любой степенью детализации. Они используются для создания систем аналитической отчётности, мониторинга, KPI и отвечают на вопросы: что случилось ранее или происходит в текущий момент. Эти продукты способны обработать во много раз больше данных, чем Excel.
К недостаткам BI-систем относится отсутствие инструментов для продвинутой аналитики (кроме встроенных сторонних языков программирования). Без погружения в кодирование пользователь не сможет заниматься именно анализом и предсказанием развития ситуации в будущем: почему это случилось, что может случиться и что делать. Например, кто из клиентов склонен к оттоку или какие факторы влияют на продажу товаров.
Компаниям преподносят BI-системы как решение проблем получения отчётов. На самом деле BI — это только вершина айсберга, а под водой скрывается множество сложностей получения данных — ETL (Extract, Transform, Load). Загрузка, предобработка, очистка и стандартизация данных — это самая большая проблема аналитиков, которая занимает до 80% всего процесса анализа данных. Для подготовки только одного отчёта на ETL-процесс может уходить до нескольких недель. Например, когда необходимо совместить данные о производстве и поставках, которые вносились разными отделами в разных местах и системах. BI-платформы предлагают инструменты или дополнительные компоненты для ETL-процесса, но их функционал либо ограничен и недостаточен, либо необходимо писать код.
+ : Для бизнес-пользователей погружение в BI-приложения осуществляется легко и просто, оно не требует специальных знаний. С помощью BI-систем можно строить красивые отчёты для руководителей и проводить визуальную оценку для поиска инсайтов.
— : Если в компании не существует единого хранилища данных и не налажены процессы управления качеством информации, то придётся порядком попотеть совместно с IT-шниками над получением достоверных результатов. Для возможностей, связанных с углублённой аналитикой данных, надо использовать другие инструменты.
Среди аналитиков популярны языки программирования Python и R. Они мощные и гибкие, что позволяет написать на них практически всё, что необходимо, работают с большими объёмами данных. В помощь Data Scientist’ам существует огромное количество готовых библиотек для визуализации, ETL, машинного обучения и интеллектуального анализа данных. Часто появляются новые библиотеки, которые размещаются в открытом доступе.
Порог вхождения в языки программирования самый высокий по сравнению с другими инструментами, так как нужны специальные знания в области IT и статистики, а также умение писать код. Нельзя просто прочитать инструкцию для «чайников» и пойти программировать работающие системы. Ведь между копированием библиотеки и полноценным решением огромная разница.
Для бизнеса немаловажное значение имеет, как быстро и сколько сотрудников смогут разрабатывать решения на языке программирования. Сейчас много доступных обучающих курсов на популярных площадках, но:
Многие начинающие аналитики, хоть и не признаются в этом, действительно не сумели стать разработчиками на Python или R и за год обучения.
Резюме:
+ : Если предыдущие инструменты не решают ваших задач, то переходите на новый уровень прокачки своих аналитических умений — изучайте языки программирования. С помощью них вы сможете настроить весь процесс анализа данных и использовать, в том числе, продвинутые алгоритмы машинного обучения в своей работе.
— : Для начинающего аналитика этот порог входа самый высокий. Помимо знаний в Data Science необходимы умения в области программирования. Будьте готовы, что на довольно плотное обучение уйдёт минимум полгода. Ведь бизнес-пользователь должен освоить новую, достаточно сложную, специальность.
Здесь речь пойдёт не про все аналитические платформы, а только те, которые работают по принципу low-code. Эти инструменты визуального проектирования были разработаны специально для аналитиков, не обладающих навыками программирования, и оснащены всеми необходимыми инструментами для простой работы с данными. Примеры таких решений: Loginom, Alteryx и т.д.
Аналитические платформы, которые базируются на принципе low-code, представляют собой конструкторы с набором готовых «кубиков». Решения, которые ранее разрабатывались программистами, теперь могут собираться самими аналитиками, «мышкой», в короткие сроки. Системы показывают высокую производительность при работе с большими массивами данных.
Платформы позволяют автоматизировать ежедневную работу аналитика различной сложности, практически не привлекая к ней разработчиков. Получение данных из различных систем, объединение, преобразование, очистка, простые и сложные вычисления, визуализация — та самая работа, на которую у аналитиков уходит до 80% времени. Она легко выполняется на аналитической платформе без кодирования и не требует специфичных знаний.
Для продвинутой аналитики платформы содержат инструменты Machine Learning. Наличие упрощённых мастеров настройки алгоритмов анализа данных с уточняющей документацией максимально упрощает вход в профессию аналитика.
Для применения алгоритмов продвинутой аналитики всё-таки понадобится изучение теории по анализу данных и математической статистике. Не требуется становиться 100% Data Scientist’ом, но должно быть понимание, для чего нужен определённый алгоритм анализа данных, как правильно подготовить данные для него и интерпретировать результаты.
Минусом аналитических платформ также является ограниченное количество компонентов. При нехватке функционала придётся использовать встроенные языки программирования и просить помощи у своих IT-шников. Low-code не исключает написание кода, а сводит его к минимуму.
Резюме:
+ : Визуальное проектирование понятно всем, кто работает в Excel. Для получения первых результатов непрофессиональным разработчикам достаточно пары дней. На базе аналитической платформы начинающие аналитики смогут реализовать бОльшую часть своих ежедневных задач: от подготовки данных до машинного обучения и моделирования.
— : Для использования продвинутой аналитики придётся погуглить про алгоритмы анализа данных, изучить, что это такое и как может быть применено к вашим данным. В случае выхода за рамки low-code идеологии требуется написание кода или помощь IT-отдела.
Анализ данных расширяет возможности компании, позволяя бизнесу получать инсайты. Ключевая роль в этом процессе теперь отводится бизнес-экспертам как основным «носителям» знаний. Бизнес-пользователю нужен лишь подходящий инструмент.
В этой статье мы перечислили инструменты, которые обеспечивают лёгкий доступ к данным и аналитике для начинающего Сitizen data scientist. Каждый из них используется в подходящей для него области. Выбирайте самый простой из возможных способов решения вашей задачи.
Если можно обойтись Excel, то используйте Excel. Если начинают создаваться обходные решения или неэффективно используются существующие инструменты, переходите на новый уровень. Каждый последующий шаг — это открытие новых горизонтов и профессиональное развитие в самом перспективном IT-направлении – Data Science.
Развивайте свои аналитические навыки, пробуйте и выбирайте подходящий для вас инструмент для работы с данными. Ищите то решение, которое быстро и эффективно реализует вашу задачу, а главное, поможет избежать ежедневных рутинных операций.
Статья подготовлена для интернет-издания VC.ru.
Другие материалы по теме:
Loginom Community Edition - аналитика, доступная каждому
Простой визуальный ETL для BI. Интеграция Loginom и Visiology. Вебинар