Марафон «Рецепт продвинутой аналитики». День 4: Перчим, солим и в духовку! Не душно про обогащение данных

Компоненты обогащения данных

В предыдущем занятии мы загрузили данные и трансформировали их формат в вид, пригодный для дальнейшего обогащения. Однако, чтобы лучше ориентироваться в этих данных, есть смысл разбить их на группы, по которым будет выстраиваться дальнейшая классификация клиентов.

Важно! Если вы не ознакомлены с темой предыдущего дня «Заправляем сценарий клиентской матрицей. Подготовка данных», то для большего понимания советуем предварительно прочитать этот материал.

Узлы второй группы (обогащение) позволяют создать новые аналитические признаки в данных, с помощью которых легко выявлять необходимые сценарии. Давайте добавим эти узлы в сценарий.

Так как эти узлы настроены на получение данных из компонента подготовки данных, то настраивать сопоставление полей не надо. Однако, почему мы используем целых 3 узла вместо одного?

Как вы могли заметить, узлы разграничены по типам рассчитываемых признаков. Такая структура хорошо отображает составляющие процесса для бизнес-пользователя. А также позволяет обратиться к отдельным видам сегментации без создания ненужных в моменте столбцов.

Какие разрезы идут в сегментацию?

Финансовые признаки

Прежде всего, мы должны понимать, что означает клиент с точки зрения финансов для компании. Для этого используются 3 основных показателя:

ФК — Выручка в рабочий месяц — какую выручку приносит клиент в среднем за 1 месяц своих отгрузок. Удобно оценивать именно этот показатель, т.к. он выравнивает понимание финансового потенциала как новых клиентов, так и клиентов с долгой историей.
ФК — Доля валовой прибыли — обязательно нужно понимать, какой процент выручки становится доходом компании. «Чемпион по выручке» не то же самое что «Чемпион по прибыли». Клиент может быть невыгодным или даже убыточным, но отвлекать на себя много ресурсов.
ФК — Доля дебиторки (ДЗ) от выручки — любая выручка не имеет смысл, если клиент не платит. Соотношение выручки и дебиторской задолженности покажет, насколько хороша платежная дисциплина клиента.

Однако, анализировать голые цифры нет смысла. Для удобства их нужно разбить на группы, за это отвечает входной порт переменных.

А вот кстати и еще одна причина разнесения бизнес-логики на отдельные модули. Когда настроек очень много, есть смысл размещать их в разных портах или модулях, чтобы не перегружать пользователей.

Кстати, если наборы переменных представляют из себя группы, их можно разделять фейковыми переменными, которые не используются в расчетах, но облегчают восприятие настроек.

Как определять диапазоны разбивки для вашего бизнеса, рассказано в конце статьи.

Использование этих настроек позволяет разбить показатели на группы, а именно:

ФК — Класс выручки в раб. месяц:
1. Меньше или равно 0;
2. Больше 0, но меньше или равно 200 000;
3. Больше 200 000, но меньше или равно 1 000 000;
4. Больше 1 000 000, но меньше или равно 5 000 000;
5. Больше 5 000 000.

ФК — Класс доли валовой прибыли:
1. Меньше или равно 0%;
2. Больше 0%, но меньше или равно 7%;
3. Больше 7%, но меньше или равно 18%;
4. Больше 18%, но меньше или равно 22%;
5. Больше 22%.

ФК — Класс доли ДЗ:
1. Меньше или равно 0%;
2. Больше 0%, но меньше или равно 10%;
3. Больше 10%, но меньше или равно 30%;
4. Больше 30%.

Один из ключевых моментов анализа клиентских сегментов — это понимание их динамики. А именно как они меняются по сравнению с прошлым месяцем. Поэтому мы вытаскиваем в каждую строку классы клиентов из прошлых месяцев:

ФК — Класс выручки в раб. месяц (ПМ)
ФК — Класс доли валовой прибыли (ПМ)
ФК — Класс доли ДЗ (ПМ)

Чтобы упростить исследование негативной и позитивной динамики, мы также считаем количество позиций, на которые изменился класс. Положительные значения — значит позитивная динамика:

ФК — Динамика класса в раб. месяц
ФК — Динамика класса валовой прибыли
ФК — Динамика класса ДЗ

Так, если у клиента был класс ДЗ«4. Больше 30%», а стал «2. Больше 0 %, но меньше или равно 10%», то динамика класса ДЗ у него будет 2. В то же время, если его выручка была «1. Меньше или равно 0», и стала «3. Больше 200 000, но меньше или равно 1 000 000», то динамика класса Выручка также будет 2.

Обогащение данных требуется для сокращения рутинных действий пользователем, позволяя ему в одно действие находить данные, поиск которых в исходном наборе потребовал бы множества сложных телодвижений. Или даже вообще был бы невозможен.

Признаки по объемам

Тут у нас все по аналогии с выручкой, только про объем проданной продукции:

КК — Объем за рабочий месяц — сколько в среднем в месяц с отгрузками клиент приобретает продукции.
КК — Класс объема за рабочий месяц:
1. Меньше или равно 0;
2. Больше 0, но меньше или равно 100;
3. Больше 100, но меньше или равно 500;
4. Больше 500, но меньше или равно 1 000;
5. Больше 1 000, но меньше или равно 5 000;
6. Больше 5 000, но меньше или равно 10 000;
7. Больше 10 000.
КК — Класс объема за рабочий месяц (ПМ) — класс объема закупок в прошлом месяце.
КК — Динамика класса объема за рабочий месяц — аналогично предыдущему блоку.

Частотно-временные признаки

Это большой набор показателей, который определяет частоту покупок клиента, стабильность графика закупок, сигнализирует об отклонениях, а также вводит классификацию давности работы клиента с компанией.

ВК — Средняя периодичность покупок — считается как количество дней между первой и последней покупкой за 12 месяцев, деленное на количество покупок. Один день = одна покупка.
ВК — Дней с последней продажи — сколько дней прошло с последней продажи. Для прошедших месяцев.
ВК — Текущая частота отгрузок — классификация средней периодичности покупки по настройкам групп КЛАССЫ ЧАСТОТЫ ПОКУПОК (ДНЕЙ) в переменных. Итоговые значения:
1. Частые.
2. Постоянные.
3. Периодические.
4. Редкие.
ВК — Возраст в месяцах — количество месяцев от первой покупки.
ВК — Дата следующей покупки — ожидаемая дата следующей отгрузки, на основе суммы средней периодичности покупки и даты последней отгрузки.
ВК — Класс давности знакомства — классификация месяцев знакомства в соответствие с настройками в переменных.
ВК — Рабочий статус — главный инструмент в определении активности клиента. Принимает значения в зависимости отклонений средней частоты покупок от давности последней покупки. Границы отклонений задаются в группе настроек ОТКЛОНЕНИЯ ОТ ЧАСТОТЫ ПОКУПОК. Может принимать следующие значения:
1. Новый — любой клиент в месяц своей первой покупки.
2. Рабочий — клиент в рамках своей частоты.
3. Рабочий_В — клиент в рамках своей частоты.
4. Теряем — клиент начинает отклоняться от стандартной частоты.
5. Теряем_В — клиент начинает отклоняться от стандартной частоты.
6. Потерянный — клиент серьезно отклонился от частоты покупок.
7. Реанимация — клиент критически отклонился от частоты покупок.
8. Ушедший — клиент превысил все возможные лимиты отклонений.

Отметки «_В» в некоторых статусах значат «вернулся». Такой клиент дошел однажды до состояния «Потерянный» и хуже, но в итоге вернулся в рабочий режим. Для таких случаев нужны отдельные бизнес-процессы работы.

Подробнее обо всех комбинациях мы расскажем в следующем дне:

ВК — вернулся — отметка месяца возвращения после попадания в статус «Потерянный» и хуже.
ВК — Рабочий статус ПМ — рабочий статус в прошлом месяце. Благодаря этому параметру, очень удобно визуализировать в BI-системах изменения состояния клиентской базы. Например, уход клиентов в зону риска.

Заключение

В комбинации с финансовыми признаками рабочий статус определяет, что нам нужно делать с клиентом. Клиент в статусе «6. Потерянный»? Надо его спасать! А у него еще 100% уровень задолженности от выручки? Тогда пусть этим занимается юридический отдел, не тратим время. Чтобы не заниматься этим анализом каждый раз, когда нужно решить, что делать с клиентом, комбинации этих признаков нужно свести к одному сценарию действий. Этим мы и займемся завтра.

Евгений Стучалкин

Руководитель и архитектор self-service решений BI2BUSINESS

Что касается правил построения компонентов для сложных сценариев, сегодня мы узнали, что:

Обогащение данных необходимо, чтобы сократить количество действий пользователя для поиска нужного фрагмента данных.
Лучше разделять основной поток обработки на подсценарии. Для облегчения восприятия для бизнес-пользователя и дальнейшего масштабирования системы.
Большое количество переменных в настройках можно разбивать фейковыми переменными — заголовками.
В нейминге полей имеет смысл придерживаться их систематизации за счет префиксов. Так, у нас используются префиксы ФК, КК, ВК для разграничения признаков по принадлежности к той или иной области.

Комментарий эксперта

Когда вы собираетесь проранжировать группу каких-то объектов (например клиентов), то хорошо привести их единой базе, так сказать. Ключевая ценность клиента — приносимые им выручка и прибыль. Однако при прямом сравнении этих показателей старые клиенты всегда будут превосходить новых. Даже если новые клиенты имеют хороший потенциал по сравнении со старыми.

Поэтому вместо сравнения общей суммы продаж, мы сравниваем клиентов по средней выручке за рабочий месяц (месяц, когда клиент отгружался за период последних 12 месяцев).

Таким образом, в оценку попадают только продажи последнего года. Вы можете сказать: «но постойте, получается, что клиент, купивший раз в год на 100 000, по этому показателю будет равен клиенту, который каждый месяц покупает на 100 000».

И это правильный вопрос. Но для уточнения значимости данного класса выручки у нас будут уточняющие параметры в частотно-временных признаках. Именно эти признаки будут определять текущий сценарий работы с клиентом, и они завязаны на периодичность покупок и стабильность спроса.

Поэтому в итоге редко покупающий клиент на среднюю сумму в 100 000 в месяц не будет равен часто покупающему клиенту на аналогичную сумму.

Но о том, как интерпретировать эти сегменты, мы поговорим завтра. А сегодня разберем еще один вопрос.

Как правильно определить пороговые значения для сегментации клиентов?

Рассмотрим на примере классификации выручки. Сейчас клиенты разбиваются на группы:

меньше или равно 0;
больше 0, но меньше или равно 200 000;
больше 200 000, но меньше или равно 1 000 000;
больше 1 000 000, но меньше или равно 5 000 000;
больше 5 000 000.

Понять, на какие группы разбивать клиентов в вашем случае? Эта работа делается в 2 захода. Первым делом нужно понять, делится ли у вас клиентская база на направления бизнеса. Например, опт и розницу. Нет смысла анализировать разные направления продаж вместе. У них разный бизнес-процесс, разные нормы прибыли и оборотов.

Дальше, взяв отдельные направления, спрашиваем коммерческого директора: «Какая среднемесячная выручка по клиенту считается прямо супер-хорошей?». Это будет значение для самого верхнего уровня, т.е. 5 000 000. Далее спрашиваем: «А какой уровень выручки будет по клиентам на ступень меньше?». И так определяем все уровни сверху вниз.

Почему действуем именно так, а не высчитываем сегменты сами через какие-либо алгоритмы? Потому что нам важно синхронизировать границы сегментации с видением руководства. Будет ли такая оценка точна? Может быть, да, а может быть, нет. Но она служит отправной точкой. После вы сможете наложить эти сегменты на график продаж и продемонстрировать реальное распределение выручки по этим группам. И может так оказаться, что группа «5. больше 5 000 000» приносит условно 10 млн. в месяц. А группа «3. больше 200 000, но меньше или равно 1 000 000» — 25 млн. в месяц. А значит, более важными являются именно клиенты группы 3, и ее надо выносить как главную. «5. больше 5 000 000» могут быть исключены из сегментации как клиенты другого направления продаж.

Таким образом, вы постепенно сближаетесь в своих оценках с руководством компании и корректируете их на основе общего согласия. С остальными параметрами поступаем аналогично.

Список материалов марафона

Следующий материал