Предсказание рейтингов ТВ-программ: методы машинного обучения на платформе Loginom

20 июня 2024

Прогнозирование событий с применением low-code платформы Loginom: кейс компании DатаРу Консалтинг. Изучим, как технологии машинного обучения могут разрабатывать точные и эффективные модели для предсказания рейтингов телевизионных программ.

В мире телевизионного контента, где конкуренция за зрителей беспрерывно нарастает, умение точно прогнозировать рейтинги телевизионных программ становится ключевым стратегическим преимуществом для сетей и каналов. В новой эре цифровых медиа со стремлением оптимизировать расходы на производство контента прогнозирование рейтингов становится необходимым инструментом для принятия взвешенных решений.

Рассмотрим кейс для предсказания рейтингов телевизионных программ, который выполнила компания DатаРу Консалтинг. Данная задача была решена на оборудовании компании с использованием low-code платформы Loginom.

Проблема исходных данных

Модель для прогнозирования рейтингов передачи будет строиться на данных, полученных от клиента в форме *.csv для всех федеральных каналов. Данные предоставлялись в двух форматах — по рекламным блокам со всеми описательными признаками рекламного блока и всей передачи, а также в виде временного ряда, разбитого на одинаковые пятиминутные отрезки. Для распределения рекламного бюджета заказчик использует метрику Affinity (далее — аффинити), которая представляет отношение рейтинга целевой аудитории (напр. женщины в возрасте от 25 до 45 лет со средним уровнем дохода) к общему рейтингу данного блока.

Методика сбора данных телевизионных рейтингов имеет свои особенности. Их поставщик является монополистом на этом рынке. В рамках договора он собирает данные у конечных зрителей с помощью специализированной приставки к телевизору. При этом в количественном выражении таких людей немного — около 20 000 человек на всю страну, поэтому качество данных для менее популярных каналов значительно ниже, чем для лидеров телетрансляции.

В этой связи тестирование модели проходило на трех каналах с разным размером аудитории. В качестве примера популярного канала выбрали показатели рейтингов ТНТ, за «середнячка» будет отвечать НТВ, а за условного аутсайдера — ТВЦ.

Другой проблемой при решении задачи стало качество данных. Релевантными можно назвать только цифры за 2023 год, в то время как предыдущие периоды содержат большое количество аномалий, не поддающихся прогнозированию. Это значит, что они не подходят для обучения моделей.

В сложившейся ситуации, к сожалению, не удастся выявить многолетние тренды изменений в поведении аудитории, хотя они определенно существуют: об их наличии можно судить, если сравнить первые месяцы 2024 года с аналогичным периодом 2023 года. Но чтобы отследить и спрогнозировать динамику, имеющихся данных будет недостаточно.

Разработка модели

Очистка данных для машинного обучения включала удаление немногочисленных выбросов, заполнение пропущенных значений переменных, кодирование признаков и подготовку временных измерений.

Изначально в датасете присутствовала только дата в формате дд/мм/гггг чч:мм:сс. В качестве новых временных измерений для машинного обучения задали еще несколько дополнительных параметров: время суток (ночь/утро/день/вечер), день месяца, месяц и квартал.

При этом в целом датасет оказался качественным, так как в нем отсутствовали пропуски и явные ошибки в данных. Кроме того, была сконструирована новая категориальная фича, описывающая новизну телепрограммы: показывается ли она впервые, была ли ее премьера менее месяца назад или премьера состоялась в этом году.

Далее был проведен разведочный анализ: оценили внутренние корреляции между признаками, построили графики распределений и провели статистический анализ.

На карте внутренней корреляции видим, что признаки time_of_day_bst и Hour, Quarter и Month попарно имеют высокую внутреннюю корреляцию, поэтому в финальной выборке признаки, имеющие меньшую корреляцию с целевой переменной, будут исключены.

Также видим, что признак programExtendedName категорийный и принимает большое количество разных значений. Это не очень хорошо для обучения модели, но объединить значения этой переменной не представляется возможным — у нас был объединяющий признак programCategoryName, но впоследствии оказалось, что для будущих телепередач этот признак не задан, и при прогнозировании не получится им пользоваться. Поэтому пока оставим признак programExtendedName в нашем датасете, но больших надежд на него возлагать не будем.

В итоге у нас остались в основном временные признаки (День, Месяц, Квартал, Год, time_of_day_bst, researchWeekDay, researchDayTypeName, breaksPrimeTimeStatusId) и лишь пара описательных (breaksPosition, programExtendedName).

Не будем пытаться угадать, какой из алгоритмов машинного обучения лучше подойдет к решению задачи построения модели для прогнозирования телерейтинга, а проверим работу всех алгоритмов-регрессоров и сравним их результаты. Затем для лучшего из них попробуем оптимизировать гиперпараметры.

В работе применялись следующие инструменты:

Стандартные реализации ARIMA и нейросетей;
Библиотека Loginom Python Kits (loginom_sklearn_kit и loginom_sklearn_meta);
Сторонние библиотеки, в частности реализация алгоритма LOESS.

В библиотеках доступны следующие алгоритмы:

Посмотрим на основные метрики для задачи регрессии: MAE, MSE, R-квадрат, MAPE:

Можно увидеть, что по всем метрикам лидирует модель Extra Trees Regressor. Попробуем оптимизировать для нее гиперпараметры. Оборудование DатаРу позволяет провести их обширный поиск по сетке. Вот список гиперпараметров модели Extra Trees, доступных для оптимизации:

n_estimators — количество деревьев в ансамбле.
max_depth — максимальная глубина дерева.
min_samples_split — минимальное количество образцов, необходимых для разделения внутреннего узла дерева.
min_samples_leaf — минимальное количество образцов, необходимых для образования листового узла дерева.
max_features — количество признаков, рассматриваемых при каждом разделении.
bootstrap — бинарный признак использования подвыборки с возвращением.

R-квадрат после оптимизации гиперпараметров

Итоги

Работа, представленная в статье, демонстрирует значимость применения инструментов машинного обучения для прогнозирования рейтингов телевизионных программ.

Использование данных о рекламных блоках и временных рядах, а также метрики Affinity позволяет эффективно оптимизировать распределение рекламного бюджета с учетом предпочтений аудитории.

Несмотря на ограничения, связанных с доступом к данным и неоднородность их качества, проведенный анализ и подготовка данных позволили построить качественные модели прогнозирования. Разработка и сравнение различных алгоритмов машинного обучения позволили выявить оптимальный подход к решению задачи создания модели для прогнозирования рейтинга программы, а оптимизация гиперпараметров дополнительно повысила точность модели и эффективность.

Таким образом, результаты работы подтверждают потенциал машинного обучения в сфере создания телевизионного контента и его возможностей значительно улучшить стратегическое планирование телевизионного вещания и работы сетей.

Автор материала:

Дмитрий Тонких

Архитектор решений DатаРу Консалтинг

Другие материалы по теме:

Курс Loginom Skills «Машинное обучение из Python в Loginom»

Деревья решений: общие принципы

Классификация данных методом k-ближайших соседей

#машинное обучение

Предсказание рейтингов ТВ-программ: методы машинного обучения на платформе Loginom

Проблема исходных данных

Разработка модели

Итоги

Смотрите также