Деградация моделей в машинном обучении

30 марта 2026

После ввода модели машинного обучения в промышленную эксплуатацию часто наблюдается постепенное ухудшение ее точности. Данное явление известно как деградация модели или старение искусственного интеллекта. Оно обусловлено изменениями бизнес-процессов и генерируемых ими данных. В статье рассмотрены причины деградации моделей, возможные последствия, способы ее обнаружения и методы борьбы с этим явлением.

Модели машинного обучения (ML-модели), развертываемые в производственных средах, часто оказываются подвержены постепенному снижению точности, что приводит к ухудшению качества решений, принимаемых с их помощью. Хотя модели изначально обучаются на исторических данных, реальные условия их эксплуатации обычно вносят изменения, которые со временем негативно влияют на точность предсказаний. Это явление известно как деградация моделей или старение искусственного интеллекта, и представляет собой одну из критически важных проблем управления жизненным циклом ML-моделей.

Например, банк обучил скоринговую модель, которая после развертывания правильно предсказывала 95% дефолтов, что является очень хорошим результатом. Но спустя год модель предсказывала верно только 87% дефолтов. Причина в том, что за год изменилась экономическая ситуация, поведение клиентов, появились новые кредитные риски.

В экспериментальных исследованиях показано, что до 91% моделей может быть подвержено деградации. Когда в моделях, оставленных без внимания в течение шести месяцев или дольше, частота ошибок для новых данных увеличивается на 35%, влияние их деградации на бизнес становится невозможно игнорировать.

Основные причины деградации моделей

В отличие от традиционной реализации алгоритмов обработки информации в виде кода, который остается статичным пока не будет явно изменен, большинство моделей машинного обучения в промышленной эксплуатации находится в состоянии непрерывной и, как правило, незаметной простому взгляду деградации.

Считается, что одной из основных ее причин является дрейф данных. Статистические изменения во входных распределениях можно измерить с помощью таких методов, как индекс стабильности популяции (PSI), критерий Колмогорова-Смирнова или дивергенция Йенсена-Шеннона. Часто для восстановления производительности достаточно повторно обучить модель на новых данных с актуальным распределением.

Изменение характера взаимосвязи между входными и выходными переменными, что приводит к смещению предсказаний модели (дрейф концепции). Принципиально отличается от дрейфа данных и является более коварным явлением. Дрейф концепции происходит, когда взаимосвязь между входными и выходными переменными кардинально меняется. Базовая концепция, которой обучилась модель, перестает быть актуальной.

Например, обучена модель для прогнозирования оттока клиентов. При этом обучающие данные показали, что клиенты, которые не заходят на сайт в течение 30 дней, с большей вероятностью отменят подписку.

Однако благодаря изменениям в продукте, клиентам стала доступна возможность выполнять ключевые действия с помощью уведомлений мобильного приложения, не заходя на веб-платформу. Таким образом, те из них, которые перестают входить в систему, не обязательно уходят. Взаимосвязь между входом в систему и оттоком клиентов коренным образом изменилась.

Обнаружить изменение концепции сложнее, поскольку распределение входных данных может выглядеть неизменным. Простые отклонения в данных часто можно устранить путем периодического повторного обучения. Дрейф концепции может потребовать перепроектирования модели, изменений в разработке признаков или даже фундаментального переосмысления проблемы.

Изменения значимости признаков, когда атрибуты, сильно влияющие на изменчивость выходных переменных на этапе обучения модели, в процессе ее промышленной эксплуатации утрачивают свою значимость, а другие, ранее менее значимые, увеличивают ее (дрейф признаков). Например, сразу после открытия филиала банка в новой локации и запуска скоринговой модели, основным фактором, определяющим вероятность дефолта был доход клиента. Однако, спустя некоторое время этот признак утратил свою значимость, а наибольшее влияние приобрел возраст заемщика и стоимость его недвижимости.

Дрейф репрезентативности, который является следствием ошибки репрезентативности. Она возникает из-за того, что обучающая выборка, использовавшаяся для построения модели, не учитывала всех особенностей проблемной области, проявляющихся в эксплуатационной среде, которые модель не умеет корректно обрабатывать.

Например, в обучающих данных для модели, предсказывающей особенности потребительского поведения, не были представлены некоторые возрастные группы, скажем 60+ из-за того, что люди в возрасте менее охотно участвуют в маркетинговых опросах и исследованиях, пишут отзывы и т.д. В результате модель окажется «смещена» в сторону молодых возрастных категорий, которые оказались наиболее широко представлены в обучающих данных. Результатом может быть предложение молодежных товаров людям более старшего возраста, что может вызвать их неудовлетворенность и раздражение. И, как следствие, отказ от услуг компании.

Независимо от причин деградации, если ее своевременно не обнаружить и не контролировать, это приводит к снижению точности модели, увеличению частоты ошибок и ухудшению качества принимаемых решений.

Выявление причин деградации является сложной задачей. Во многих случаях трудно определить, вызвана ли она смещением данных, изменениями в эксплуатационной среде или просчетами в процессе обучения. Поэтому без эффективных механизмов мониторинга и анализа первопричин, обнаружение и устранение последствий деградации оказывается весьма затратным процессом, часто требующим трудоемкого ручного вмешательства.

Для предотвращения деградации модели необходимы непрерывный мониторинг качества ее работы и повторное обучение на новых актуальных данных, соответствующих текущему состоянию эксплуатационной среды. Однако стратегия повторного обучения должна быть тщательно проработана для достижения баланса между адаптивностью и устойчивостью. Слишком частое повторное обучение может привести к перекосу модели в сторону последних тенденций и закономерностей эксплуатационной среды, а слишком редкое приводит к риску длительных периодов плохой работы.

Ситуация усугубляется еще и тем, что разные модели деградируют с совершенно разной скоростью на одних и тех же данных. Одни — постепенно и предсказуемо, другие же испытывают «взрывную деградацию» — хорошо работают в течение длительного периода, а затем внезапно рушатся. Без надлежащего мониторинга невозможно узнать, какой именно паттерн поведения демонстрирует конкретная модель, пока не станет слишком поздно.

Различают два типа деградации моделей:

взрывной, когда модель длительное время работает хорошо, но в какой-то момент ее точность резко падает. Эта точка как правило трудно предсказуема и может не зависеть от конкретных изменений в данных, как будто модель просто внезапно «устала». Мониторинг не обеспечивает эффективного контроля и позволяет только констатировать, что уже все плохо;
плавный, когда имеет место постепенное повышение вариативности ошибок — в среднем модель продолжает работать хорошо и количество допускаемых ею ошибок остается на одном уровне, но их величина постепенно возрастает. Хорошо отслеживается мониторингом.

Интеграция процедур раннего обнаружения деградационных явлений, выявление их причин и повторного обучения в единый автоматизированный рабочий процесс управления жизненным циклом ML-модели, позволит обеспечить ее устойчивое и надежное функционирование в течение длительных периодов после развертывания в эксплуатационной среде.

Обнаружение деградации модели

Различают два основных вида изменений систем, в зависимости от их природы. Первый связан с явлениями и закономерностями, которые невозможно измерить или представить в доступных атрибутах набора данных, что известно как скрытый контекст. Предсказательные модели обычно испытывают трудности при адаптации к изменениям в скрытом контексте, где необходимо применение адаптивной стратегии.

Для иллюстрации идеи скрытого контекста предположим, что ML-модель должна предсказывать температуру Земли, используя только пространственные и временные исторические данные. Со временем предсказания станут неточными из-за игнорирования изменений климата, которое и является изменением в скрытом контексте, представляющем собой недоступную при обучении информацию. Особенности скрытого контекста, как правило, зависят от предметной области, и в большинстве случаев его невозможно выразить в виде, пригодном для обучения.

Например, модель кредитного скоринга, обученная на данных пятилетней давности, будет все хуже и хуже предсказывать дефолты заемщиков по мере изменений в экономике.

Типичными результатами деградации моделей являются:

финансовые потери — неточные прогнозы приводят к принятию неверных решений и увеличению расходов;
упущенные возможности по расширению и повышению эффективности бизнеса;
репутационные и юридические риски.

Решения:

непрерывный мониторинг — отслеживание показателей эффективности модели (точность, отклонение) в режиме реального времени;
повторное обучение — регулярное обновление модели на основе актуальных данных;
использование адаптивных моделей, способных к динамическому обучению и адаптации;
применение технологий MLOps для управления жизненным циклом модели.

Одним из подходов к мониторингу моделей для обнаружения их деградации может быть использование тепловых карт вида, представленного на рисунке ниже. Здесь видно, что по вертикали откладываются месяцы, в которых происходила последняя адаптация модели (обучение, повторное обучение, дообучение), а по горизонтальной — месяц, в котором производилось тестирование производительности.

Ячейка, стоящая на пересечении строки месяца обучения и столбца месяца тестирования, раскрашивается в цвет, показывающий насколько снизилась точность модели с последнего тестирования. Слева приводится цветовая шкала, которая связывает цвет ячейки со снижением точности (деградацией) относительно ее максимального значения (то есть момента последнего обучения). При этом оттенки красного соответствуют большему снижению точности, а оттенки голубого — меньшему.

Например, рассмотрим ячейку, расположенную на пересечении строки Март и столбца Апрель. Она соответствует тестированию точности модели в апреле относительно обучения в марте и имеет расцветку, соответствующую примерно 0.4% увеличения ошибки. Ячейка на пересечении столбца Май и строки Март показывает, что тестирование в мае относительно результатов тестирования за апрель выявило несколько меньшее снижение точности, чем в апреле. Однако тестирование в июне показало взрывное падение точности относительно мая, на что указывает густой красный цвет ячейки. В следующем месяце падение снижается, а в дальнейшем стабилизируется.

Таким образом, пока падение точности от месяца к месяцу находится в «голубой» зоне диаграммы, можно не особенно беспокоиться о деградации, но если она оказывается в «красной» зоне, это повод задуматься о необходимости коррекции модели. Кроме того, на диаграмме видно, что процесс снижения точности не является равномерным: есть периоды, когда оно умеренное, а есть, когда значительное. Но в любом случае, такая диаграмма является удобным и наглядным способом отображения ситуации с деградацией модели.

Недостаток данного подхода к мониторингу в том, что он является реактивным, т.е. информация об ухудшении работы модели поступает только после того, как оно уже произошло и, возможно, на основе ее результатов уже были приняты некорректные решения. Поэтому более перспективными являются проактивные методы, которые позволяют предсказывать будущие резкие ухудшения модели и принимать превентивные меры.

Методы борьбы с деградацией модели

Компании, которые уделяют пристальное внимание проблеме деградации их моделей, несмотря на то, что это ведет к дополнительным затратам, способны получать конкурентные преимущества не за счет того, что их данные и модели изначально были лучше, а за счет того, что они длительное время способны поддерживать их в работоспособном состоянии.

Здесь уместна аналогия с технологическим оборудованием: если обеспечить высокий уровень поддержки станочного парка производственной фирмы, то ее станки будут длительное время исправно работать и производить качественную продукцию несмотря на то, что они не самые совершенные и не самые новые. Другая компания может закупить наиболее современные и дорогие станки, но не обеспечить им должный уход и поддержку, в результате чего оборудование быстро снижает работоспособность.

Поэтому исследовательское сообщество в области ИИ непрерывно предлагает и совершенствует различные технологии борьбы с деградацией, основными из которых являются:

применение ансамблей моделей, когда деградация одной модели уравновешивается нормальной работой остальных;
использование непрерывного обучения (называется также повторным обучением или ретрейнингом) — постоянного обновления модели с помощью актуальных данных. В этом случае устанавливаются четкие триггеры для инициализации процесса повторного обучения и автоматизации его регламента;
обеспечение репрезентативности обучающих данных.

Мониторинг

Основой эффективного обнаружения деградации в ML-моделях является всесторонний мониторинг их производительности. Он является необходимым условием для всего остального. Без мониторинга невозможно обнаружить деградационные явления, разработать и реализовать комплекс мер для их преодоления, а также оценить их результативность.

Система мониторинга состояния модели должна отслеживать показатели по четырем типам:

прямые показатели эффективности;
косвенные показатели эффективности;
отслеживание распределения предсказаний модели;
мониторинг характера ошибок.

Прямые показатели эффективности

Это метрики, которые напрямую показывают, решает ли модель поставленную задачу. Для моделей классификации это может быть F1-мера, точность, полнота, AUC-ROC и т.д. Для регрессии это может быть RMSE, MAE, R-квадрат или MAPE.

Измерять следует то, что важно для бизнеса, а не только то, что легко измерить. Например, если система обнаружения мошенничества выявляет 99% случаев, но на расследование оповещений уходит неделя, то такая высокая точность представляет ценность для бизнеса только в том случае, если оно проводится быстро.

Для прямых показателей эффективности используются следующие методы мониторинга:

осуществлять контроль ежедневно или в режиме реального времени, в зависимости от объема данных;
осуществлять контроль по сегментам, потому что даже если в целом модель работает нормально, точность по отдельным сегментам может падать;
использовать скользящие измерения: рассчитать базовые показатели за период стабильной работы модели продолжительностью 15-30 дней, а затем сравнивать текущие показатели с базовыми.

Косвенные показатели эффективности

Прямые показатели эффективности позволяют увидеть насколько де-факто уже ухудшилась работа модели. В то же время косвенные метрики, отражающие изменения в распределении входных данных, позволяют предупредить о вероятном снижении производительности еще до того, как его можно будет непосредственно измерить. К таким косвенным метрикам относятся:

Индекс стабильности популяции (PSI). Показывает, насколько изменилось распределение признака по сравнению с обучающей выборкой. Рассчитывается для каждого значимого признака. Значения PSI выше 0.25 требуют изучения, а выше 0.1 требуют внимания.
Критерий Колмогорова-Смирнова. Позволяет сравнить наблюдаемые распределения данных с теми, на которых производилось обучение;
Мониторинг по отдельным параметрам распределения. Отслеживание среднего значения, стандартного отклонения, минимума, максимума и квартилей для каждого числового признака.

В процессе мониторинга косвенных показателей рекомендуется выполнять следующие мероприятия:

ежедневно сравнивать распределения;
производить настройку уведомлений, которые будут рассылаться при превышении порога расхождения между параметрами распределения на обучающих и наблюдаемых данных;
отслеживать направление расхождения параметров распределений — если оно монотонно увеличивается с течением времени, что указывает на растущее смещение данных, которое может привести к деградации модели.

Отслеживание распределения предсказаний модели

Кроме распределения входных данных, рекомендуется включить в план мониторинга отслеживание распределения предсказанных моделью значений, изменения в которых могут сигнализировать о том, что она сталкивается с данными, выходящими за пределы ее обучающего распределения. При этом можно отслеживать следующие характеристики:

расхождения между распределением выходов модели в производственной среде и на обучающих данных. Если они значительны, то модель скорее всего столкнулась с зависимостями в данных, которых не было при обучении;
стабильность предсказаний: модели должны давать относительно стабильные предсказания от недели к неделе (с учетом сезонности). Непредсказуемые изменения выходов без соответствующих изменений входных данных свидетельствуют о нестабильности в работе модели.

Мониторинг характера ошибок

Анализ причин ошибок модели позволяет получить важную информацию об изменениях в ее работе. Поэтому следует:

отслеживать не только частоту ошибок, но и их типы. Различные типы ошибок указывают на разные первопричины;
временные закономерности ошибок: увеличиваются ли ошибки равномерно или по-разному в определенных временных интервалах? Неравномерность вариативности ошибки может указывать на изменения во внешней среде (появление новых конкурентов, сезонные сдвиги и т.д.);
специфические для каждого признака закономерности ошибок: какие признаки участвуют в предсказаниях, где модель дает сбой? Специфические для каждого признака ошибки указывают на то, что именно в них произошло смещение распределений.

При создании системы мониторинга деградации моделей важно не только правильно определить контролируемые показатели, но и выбрать инструменты его проведения. Это может быть как собственная разработка компании, так и специализированная платформа, или гибридный подход, в зависимости от наличия соответствующих ресурсов.

Выявление деградации модели

Если в процессе мониторинга контролируемые параметры превысили заданные пороги, что вызвало подозрение о возникновении деградационных явлений в работе модели, то должны быть своевременно сформированы и разосланы соответствующие сигналы, которые позволят в ручном или автоматическом режиме инициировать действия, направленные на решение проблемы.

Как показывает практика, ни один контролируемый в процессе мониторинга показатель не в состоянии в одиночку надежно сигнализировать о деградации модели. Для этого необходимо объединить несколько сигналов. При этом, как правило, используют многоуровневый подход, выделяя несколько сигнальных уровней:

1 уровень — прямое снижение производительности модели. Производится ежедневный расчет основного показателя эффективности и его сравнение с базовым скользящим уровнем (например, 30-дневное скользящее среднее). Оповещение срабатывает когда основной показатель падает ниже порогового значения. При этом важно проводить анализ по всем сегментам, потому что часто общий показатель выглядит стабильно, но в отдельных группах может наблюдаться резкое ухудшение.
2 уровень — изменения в распределении данных. Ежедневно рассчитывается индекс стабильности популяции. Если он превышает 0.1, то это повод обратить внимание на ситуацию, а когда более 0.25, то необходимо формировать оповещение.
3 уровень — смещение распределения предсказаний модели. Если распределение выходов модели значительно изменяется по сравнению с распределением целевой переменной из обучающей выборки, это означает, что модель, фактически, оценивает другие данные. В этом случае рекомендуется еженедельно рассчитывать статистические данные распределения прогнозов (среднее значение, стандартное отклонение, процентили) и сравнивать с базовым уровнем периода обучения. Кроме этого следует отслеживать значения выходов модели, выходящих за пределы диапазона изменения целевой переменной в обучающей выборке. Например, когда модель обучалась прогнозировать спрос на товар в ценовом диапазоне от 300 до 500 долларов, а ее пытаются применять даже после того как товар подорожал до ценового диапазона от 1000 до 1500.
4 уровень — анализ ошибок модели. Требуется внимательно изучить причины некорректных предсказаний модели, особенно с наибольшими погрешностями. Кроме того, следует выяснить, не являются ли эти ошибки характерными для определенного сценария. Например, модель обнаружения мошенничеств, выявляющая увеличение числа ложных срабатываний именно для транзакций с участием новых клиентов, предполагает, что мошенники изменили тактику и стали использовать клиентов, на которых модель не обучалась.

Установление пороговых значений

При принятии решений о том, можно ли считать поведение модели деградацией и следует ли инициировать соответствующие действия, очень важно правильно настроить пороги для отслеживания изменений контролируемых в процессе мониторинга величин.

Слишком жесткие пороговые значения приводят к ложным срабатываниям. В результате приходится излишне часто переобучивать модель и даже перестраивать ее структуру, что требует времени и приводит к приостановке рабочих процессов, в которых она задействована, и ведет к прямым убыткам бизнеса.

С другой стороны, слишком мягкие пороги приводят к пропускам критического падения точности модели. В этом случае бизнес несет потери из-за принятия плохих решений на основе неточных предсказаний модели (например, выдали большое количество кредитов людям, для которых высока вероятность дефолта).

Чтобы корректно установить пороги, можно воспользоваться следующими рекомендациями:

Зафиксировать базовый уровень в стабильный период — развернуть модель в рабочей среде, дать поработать 2-4 недели не внося изменений, затем измерить базовые показатели производительности и распределение данных. Этот период должен отражать типичные условия эксплуатации.
Проанализировать издержки и выгоды — соотнести издержки коррекции модели и уровень ущерба от ее плохой работы (финансовые и репутационные потери, неудовлетворенность клиентов и т.д.). Для моделей, ошибки которых могут иметь критические последствия (например, предсказание стихийных бедствий, катастроф) рекомендуются более низкие пороги. В этом случае система мониторинга окажется более чувствительной, а издержки от ложных срабатываний окажутся меньше, чем от пропусков. Напротив, если последствия некачественной работы модели некритичны, а затраты на ее коррекцию высокие, то пороги следует увеличить. Установку начальных порогов лучше начинать с жестких значений, т.е. когда чувствительность системы мониторинга низкая и для ее срабатывания нужно значительное ухудшение качества модели. Затем, по мере накопления опыта корректировать пороги в нужную сторону.
Пороговые значения для отдельных сегментов — для разных бизнес-сегментов могут потребоваться разные пороговые значения. Например, для сегментов клиентов с высокой ценностью целесообразно более часто актуализировать модель, поскольку ошибочные решения в их отношении могут привести к значительным потерям.

Практические пороговые значения для распространенных сценариев представлены в таблице ниже.

Тип модели	Метрики производительности	Порог предупреждения	Порог реагирования
Обнаружение мошенничества	Полнота	Снижение от базового уровня на 2%	Снижение от базового уровня на 5%
Рекомендательная	Показатель кликабельности (CTR)	Снижение 1-2%	Снижение 3-5%
Оптимизация цены	MAE (%)	Возрастание 3%	Возрастание 5%
Скоринг лидов	AUC-ROC	Снижение 3%	Снижение 5%
Предсказание ухода	Точность (Precision)	Снижение 3%	Снижение 5%

Выбор стратегии повторного обучения

Как только в процессе мониторинга обнаруживаются симптомы деградации модели, должны запускаться механизмы ее корректировки с целью восстановления производительности. Это обычно реализуется с помощью переобучения модели на актуальных данных. При этом возникает необходимость выбрать стратегию и реализовать соответствующие сценарии. Здесь возможны несколько подходов.

Фиксированный график — ежедневно, еженедельно, ежемесячно, ежеквартально. Его имеет смысл использовать в следующих случаях:

когда данные изменяются предсказуемо (например при прогнозировании ежедневного спроса);
когда вычислительных ресурсов достаточно для частых операций подготовки новых данных и переобучения на них модели;
в производственной среде имеется адекватная инфраструктура для тестирования и развертывания модели;
модели, где важна постепенная адаптация (например, рекомендательные);

При этом возможны следующие сценарии переобучения:

ежедневное — рекомендуется для бизнес-процессов, которые состоят из одинаковых часто повторяющихся операций (например торги в реальном времени, кредитный конвейер и т.д.), когда даже за несколько часов неточной работы модели могут накопиться большие потери;
еженедельное — оптимальный вариант для большинства случаев, оперативно восстанавливает производительность модели без чрезмерного потребления ресурсов;
ежемесячное — предпочтительно для медленных бизнес-процессов, когда плохие решения из-за неточных предсказаний модели накапливаются медленно или в условиях ограниченных вычислительных ресурсов.

Преимуществами подхода являются простота реализации и планирования, предсказуемость, постепенная адаптация к плавным изменениям в данных, не требует сложных механизмов выявления деградации. К недостаткам следует отнести невозможность подбора оптимального интервала коррекции модели если процессы деградации идут неравномерно во времени, а также принцип «все или ничего» — не делается различия между сильным и слабым падением точности модели.

Событийный подход. Является более сложным: процесс переобучения модели автоматически запускается при наступлении определенного события (триггера) — превышения порога изменения одного или нескольких метрик производительности. Целесообразно использовать в следующих случаях:

производительность модели изменяется непредсказуемо (обычно, вследствие дрейфа концепции);
ресурсы для частого переобучения ограничены;
производственные среды, где лишнее переобучение создает проблемы для развертывания модели;
модели, в которых требуется быстрая адаптация к внезапным изменениям.

При этом определяют основное и вторичное событие. Основное, обычно, когда показатель производительности падает ниже порогового значения. Вторичное — значительное изменение распределения данных, когда индекс стабильности популяции становится больше порога или некоторые внешние события (выпуск крупного продукта конкурентом, изменение нормативных требований, сезонные изменения и т.д.).

Кроме этого, можно указать минимальный интервал запуска процесса переобучения модели, чтобы оно не происходило слишком часто.

Преимуществами подхода являются то, переобучение модели производится только при необходимости, быстрая реакция на внезапные изменения направления движения метрик производительности, экономия вычислительных ресурсов. Недостатки подхода в том, что требуются сложные процедуры мониторинга производительности, возможно неудачная установка порогов, из-за чего будут происходить ложные срабатывания и необоснованный запуск переобучения модели. Кроме этого, если порог слишком жесткий, возможен запуск процесса корректировки модели с задержкой (пока накопится достаточное снижение производительности).

Гибридный подход. Является подходящим для большинства случаев. Создается некоторый базовый график на основе фиксированных интервалов (например, еженедельный). Вместе с тем, процесс переобучения может быть запущен внутри базового интервала, если сработал триггер (был превышен порог изменения показателя производительности). При этом задается минимальный интервал запуска.

Подход обеспечивает стабильность модели за счет предсказуемого графика переобучения, но при этом оперативно реагирует на реальные изменения в работе модели.

Выбор технологии переобучения

После того, как сценарий управления процессом переобучения настроен, возникает следующий вопрос: следует ли переобучать модель полностью («с нуля») или делать это поэтапно.

Полное переобучение включает:

удаление старых моделей;
обучение новых моделей на всех исторических данных, в том числе на самых актуальных;
развертывание новых моделей в производственной среде.

Причинами, по которым требуется полное переобучение, могут быть:

значительный дрейф концепции, требующий фундаментальных изменений модели;
переобучение требуется редко (ежеквартально, ежемесячно), когда накапливается значительное падение производительности;
достаточный объем вычислительных ресурсов;
качество модели имеет решающее значение и его нужно поддерживать не считаясь с затратами.

Процесс переобучения требует следующих действий:

сбор обучающих данных за весь исторический и недавний период;
переобучение с использованием тех же методов и алгоритмов обучения с теми же гиперпараметрами, что и в оригинале;
провести всестороннюю оценку новой модели перед развертыванием в производственной среде.

Остается открытым вопрос: нужно ли использовать только новые данные (т.е. те, которые появились после предыдущего обучения модели) или также и исторические (т.е. те, на которых обучалась исходная модель). На практике чаще реализуют стратегию, когда используют и те, и другие данные, но новым в процессе переобучения придается больший вес. Это позволит, с одной стороны, избежать «забывания» новой моделью зависимостей и закономерностей, которые «знала» исходная модель, и в то же время обучиться новым зависимостям и закономерностям, которые содержатся в новых данных.

Преимуществами полного переобучения является учет всех имеющихся данных, возможность реконфигурации модели, простота понимания и отладки. К недостаткам можно отнести значительные вычислительные затраты, особенно на больших наборах данных, длительный период переподготовки, что ограничивает минимальный возможный интервал переобучения и неэффективная обработка плавных изменений производительности. Кроме этого, поскольку фактически получается новая модель, приходится развертывать ее заново, что также создает определенные риски.

Поэтапное переобучение предполагает использование только новых данных, созданных с момента прошлого обучения (или переобучения) модели. Имеет смысл использовать в случаях:

требуется частое переобучение (на подготовку и использование исторических данных нет времени);
ограниченный объем вычислительных ресурсов;
плавный непрерывный дрейф, требующий непрерывной адаптации модели.

Преимуществами подхода являются небольшие вычислительные и временные затраты, что позволяет переобучать модель часто, адаптируя к плавным изменениям бизнес-окружения. Недостатки — возможность забывания моделью зависимостей и закономерностей имеющихся в исторических данных, риск накопления ошибок.

Метод ансамбля моделей

Еще одной проблемой, связанной с деградацией моделей и необходимостью их корректировки для восстановления производительности, является вынужденная приостановка поддержки моделью соответствующего бизнес-процесса. Это может привести к его частичной или полной остановке на время «ремонта» модели и потери прибыли, либо к переходу управления бизнес-процессом в ручной режим, что увеличивает риск ошибочных решений, приводящих к убыткам.

Чтобы решить проблему «простоя» модели, возможно использование ансамбля моделей, обученных на разных подмножествах данных, предсказания которых агрегируются с целью повышения точности. Подход позволяет плавно отказываться от устаревших, деградировавших моделей и плавно «накатывать» новые, актуальные модели, не останавливая ход бизнес-процесса.

Метод реализуется следующим образом:

построить и поддерживать ансамбль из 2-3 моделей разного «возраста», т.е. обученных на данных из разных временных интервалов;
увеличить вес моделей обученных на наиболее поздних данных;
постепенно уменьшить вес «старых» моделей по мере снижения их производительности;
замените самую «старую» модель, когда наиболее «новая» продемонстрирует стабильно высокую производительность.

Как обеспечить устойчивость ML-моделей

Способность моделей оставаться точными и создающими высокую бизнес-ценность на протяжении длительных периодов времени, полностью зависит от систем их поддержки в производственной среде. Таким образом, решение проблемы деградации моделей в машинном обучении является достаточно затратным и трудоемким, хотя и необходимым процессом. При этом его ручная реализация малоперспективна, поскольку оказывается слишком сложной и длительной, а кроме того связана с большими рисками и ошибками.

Поэтому единственно правильным подходом является комплексная автоматизация всего процесса мониторинга снижения производительности вследствие деградации модели и ее восстановления. Для этого необходимо создавать автоматизированные конвейеры, которые включают процедуры проверки и подготовки данных, выполнения переобучения или иной коррекции моделей, ее всестороннее оценивание и непрерывное разворачивание в производственной среде.

Другие материалы по теме:

Change Data Capture (CDC) — захват изменений данных

Утечка данных в машинном обучении

#машинное обучение