
После ввода модели машинного обучения в промышленную эксплуатацию часто наблюдается постепенное ухудшение ее точности. Данное явление известно как деградация модели или старение искусственного интеллекта. Оно обусловлено изменениями бизнес-процессов и генерируемых ими данных. В статье рассмотрены причины деградации моделей, возможные последствия, способы ее обнаружения и методы борьбы с этим явлением.
Модели машинного обучения (ML-модели), развертываемые в производственных средах, часто оказываются подвержены постепенному снижению точности, что приводит к ухудшению качества решений, принимаемых с их помощью. Хотя модели изначально обучаются на исторических данных, реальные условия их эксплуатации обычно вносят изменения, которые со временем негативно влияют на точность предсказаний. Это явление известно как деградация моделей или старение искусственного интеллекта, и представляет собой одну из критически важных проблем управления жизненным циклом ML-моделей.
Например, банк обучил скоринговую модель, которая после развертывания правильно предсказывала 95% дефолтов, что является очень хорошим результатом. Но спустя год модель предсказывала верно только 87% дефолтов. Причина в том, что за год изменилась экономическая ситуация, поведение клиентов, появились новые кредитные риски.
В экспериментальных исследованиях показано, что до 91% моделей может быть подвержено деградации. Когда в моделях, оставленных без внимания в течение шести месяцев или дольше, частота ошибок для новых данных увеличивается на 35%, влияние их деградации на бизнес становится невозможно игнорировать.
В отличие от традиционной реализации алгоритмов обработки информации в виде кода, который остается статичным пока не будет явно изменен, большинство моделей машинного обучения в промышленной эксплуатации находится в состоянии непрерывной и, как правило, незаметной простому взгляду деградации.
Считается, что одной из основных ее причин является дрейф данных. Статистические изменения во входных распределениях можно измерить с помощью таких методов, как индекс стабильности популяции (PSI), критерий Колмогорова-Смирнова или дивергенция Йенсена-Шеннона. Часто для восстановления производительности достаточно повторно обучить модель на новых данных с актуальным распределением.
Изменение характера взаимосвязи между входными и выходными переменными, что приводит к смещению предсказаний модели (дрейф концепции). Принципиально отличается от дрейфа данных и является более коварным явлением. Дрейф концепции происходит, когда взаимосвязь между входными и выходными переменными кардинально меняется. Базовая концепция, которой обучилась модель, перестает быть актуальной.
Например, обучена модель для прогнозирования оттока клиентов. При этом обучающие данные показали, что клиенты, которые не заходят на сайт в течение 30 дней, с большей вероятностью отменят подписку.
Однако благодаря изменениям в продукте, клиентам стала доступна возможность выполнять ключевые действия с помощью уведомлений мобильного приложения, не заходя на веб-платформу. Таким образом, те из них, которые перестают входить в систему, не обязательно уходят. Взаимосвязь между входом в систему и оттоком клиентов коренным образом изменилась.
Обнаружить изменение концепции сложнее, поскольку распределение входных данных может выглядеть неизменным. Простые отклонения в данных часто можно устранить путем периодического повторного обучения. Дрейф концепции может потребовать перепроектирования модели, изменений в разработке признаков или даже фундаментального переосмысления проблемы.
Изменения значимости признаков, когда атрибуты, сильно влияющие на изменчивость выходных переменных на этапе обучения модели, в процессе ее промышленной эксплуатации утрачивают свою значимость, а другие, ранее менее значимые, увеличивают ее (дрейф признаков). Например, сразу после открытия филиала банка в новой локации и запуска скоринговой модели, основным фактором, определяющим вероятность дефолта был доход клиента. Однако, спустя некоторое время этот признак утратил свою значимость, а наибольшее влияние приобрел возраст заемщика и стоимость его недвижимости.
Дрейф репрезентативности, который является следствием ошибки репрезентативности. Она возникает из-за того, что обучающая выборка, использовавшаяся для построения модели, не учитывала всех особенностей проблемной области, проявляющихся в эксплуатационной среде, которые модель не умеет корректно обрабатывать.
Например, в обучающих данных для модели, предсказывающей особенности потребительского поведения, не были представлены некоторые возрастные группы, скажем 60+ из-за того, что люди в возрасте менее охотно участвуют в маркетинговых опросах и исследованиях, пишут отзывы и т.д. В результате модель окажется «смещена» в сторону молодых возрастных категорий, которые оказались наиболее широко представлены в обучающих данных. Результатом может быть предложение молодежных товаров людям более старшего возраста, что может вызвать их неудовлетворенность и раздражение. И, как следствие, отказ от услуг компании.
Независимо от причин деградации, если ее своевременно не обнаружить и не контролировать, это приводит к снижению точности модели, увеличению частоты ошибок и ухудшению качества принимаемых решений.
Выявление причин деградации является сложной задачей. Во многих случаях трудно определить, вызвана ли она смещением данных, изменениями в эксплуатационной среде или просчетами в процессе обучения. Поэтому без эффективных механизмов мониторинга и анализа первопричин, обнаружение и устранение последствий деградации оказывается весьма затратным процессом, часто требующим трудоемкого ручного вмешательства.
Для предотвращения деградации модели необходимы непрерывный мониторинг качества ее работы и повторное обучение на новых актуальных данных, соответствующих текущему состоянию эксплуатационной среды. Однако стратегия повторного обучения должна быть тщательно проработана для достижения баланса между адаптивностью и устойчивостью. Слишком частое повторное обучение может привести к перекосу модели в сторону последних тенденций и закономерностей эксплуатационной среды, а слишком редкое приводит к риску длительных периодов плохой работы.
Ситуация усугубляется еще и тем, что разные модели деградируют с совершенно разной скоростью на одних и тех же данных. Одни — постепенно и предсказуемо, другие же испытывают «взрывную деградацию» — хорошо работают в течение длительного периода, а затем внезапно рушатся. Без надлежащего мониторинга невозможно узнать, какой именно паттерн поведения демонстрирует конкретная модель, пока не станет слишком поздно.
Различают два типа деградации моделей:
Интеграция процедур раннего обнаружения деградационных явлений, выявление их причин и повторного обучения в единый автоматизированный рабочий процесс управления жизненным циклом ML-модели, позволит обеспечить ее устойчивое и надежное функционирование в течение длительных периодов после развертывания в эксплуатационной среде.
Различают два основных вида изменений систем, в зависимости от их природы. Первый связан с явлениями и закономерностями, которые невозможно измерить или представить в доступных атрибутах набора данных, что известно как скрытый контекст. Предсказательные модели обычно испытывают трудности при адаптации к изменениям в скрытом контексте, где необходимо применение адаптивной стратегии.
Для иллюстрации идеи скрытого контекста предположим, что ML-модель должна предсказывать температуру Земли, используя только пространственные и временные исторические данные. Со временем предсказания станут неточными из-за игнорирования изменений климата, которое и является изменением в скрытом контексте, представляющем собой недоступную при обучении информацию. Особенности скрытого контекста, как правило, зависят от предметной области, и в большинстве случаев его невозможно выразить в виде, пригодном для обучения.
Например, модель кредитного скоринга, обученная на данных пятилетней давности, будет все хуже и хуже предсказывать дефолты заемщиков по мере изменений в экономике.
Типичными результатами деградации моделей являются:
Решения:
Одним из подходов к мониторингу моделей для обнаружения их деградации может быть использование тепловых карт вида, представленного на рисунке ниже. Здесь видно, что по вертикали откладываются месяцы, в которых происходила последняя адаптация модели (обучение, повторное обучение, дообучение), а по горизонтальной — месяц, в котором производилось тестирование производительности.
Ячейка, стоящая на пересечении строки месяца обучения и столбца месяца тестирования, раскрашивается в цвет, показывающий насколько снизилась точность модели с последнего тестирования. Слева приводится цветовая шкала, которая связывает цвет ячейки со снижением точности (деградацией) относительно ее максимального значения (то есть момента последнего обучения). При этом оттенки красного соответствуют большему снижению точности, а оттенки голубого — меньшему.
Например, рассмотрим ячейку, расположенную на пересечении строки Март и столбца Апрель. Она соответствует тестированию точности модели в апреле относительно обучения в марте и имеет расцветку, соответствующую примерно 0.4% увеличения ошибки. Ячейка на пересечении столбца Май и строки Март показывает, что тестирование в мае относительно результатов тестирования за апрель выявило несколько меньшее снижение точности, чем в апреле. Однако тестирование в июне показало взрывное падение точности относительно мая, на что указывает густой красный цвет ячейки. В следующем месяце падение снижается, а в дальнейшем стабилизируется.
Таким образом, пока падение точности от месяца к месяцу находится в «голубой» зоне диаграммы, можно не особенно беспокоиться о деградации, но если она оказывается в «красной» зоне, это повод задуматься о необходимости коррекции модели. Кроме того, на диаграмме видно, что процесс снижения точности не является равномерным: есть периоды, когда оно умеренное, а есть, когда значительное. Но в любом случае, такая диаграмма является удобным и наглядным способом отображения ситуации с деградацией модели.
Недостаток данного подхода к мониторингу в том, что он является реактивным, т.е. информация об ухудшении работы модели поступает только после того, как оно уже произошло и, возможно, на основе ее результатов уже были приняты некорректные решения. Поэтому более перспективными являются проактивные методы, которые позволяют предсказывать будущие резкие ухудшения модели и принимать превентивные меры.
Компании, которые уделяют пристальное внимание проблеме деградации их моделей, несмотря на то, что это ведет к дополнительным затратам, способны получать конкурентные преимущества не за счет того, что их данные и модели изначально были лучше, а за счет того, что они длительное время способны поддерживать их в работоспособном состоянии.
Здесь уместна аналогия с технологическим оборудованием: если обеспечить высокий уровень поддержки станочного парка производственной фирмы, то ее станки будут длительное время исправно работать и производить качественную продукцию несмотря на то, что они не самые совершенные и не самые новые. Другая компания может закупить наиболее современные и дорогие станки, но не обеспечить им должный уход и поддержку, в результате чего оборудование быстро снижает работоспособность.
Поэтому исследовательское сообщество в области ИИ непрерывно предлагает и совершенствует различные технологии борьбы с деградацией, основными из которых являются:
Основой эффективного обнаружения деградации в ML-моделях является всесторонний мониторинг их производительности. Он является необходимым условием для всего остального. Без мониторинга невозможно обнаружить деградационные явления, разработать и реализовать комплекс мер для их преодоления, а также оценить их результативность.
Система мониторинга состояния модели должна отслеживать показатели по четырем типам:
Это метрики, которые напрямую показывают, решает ли модель поставленную задачу. Для моделей классификации это может быть F1-мера, точность, полнота, AUC-ROC и т.д. Для регрессии это может быть RMSE, MAE, R-квадрат или MAPE.
Измерять следует то, что важно для бизнеса, а не только то, что легко измерить. Например, если система обнаружения мошенничества выявляет 99% случаев, но на расследование оповещений уходит неделя, то такая высокая точность представляет ценность для бизнеса только в том случае, если оно проводится быстро.
Для прямых показателей эффективности используются следующие методы мониторинга:
Прямые показатели эффективности позволяют увидеть насколько де-факто уже ухудшилась работа модели. В то же время косвенные метрики, отражающие изменения в распределении входных данных, позволяют предупредить о вероятном снижении производительности еще до того, как его можно будет непосредственно измерить. К таким косвенным метрикам относятся:
В процессе мониторинга косвенных показателей рекомендуется выполнять следующие мероприятия:
Кроме распределения входных данных, рекомендуется включить в план мониторинга отслеживание распределения предсказанных моделью значений, изменения в которых могут сигнализировать о том, что она сталкивается с данными, выходящими за пределы ее обучающего распределения. При этом можно отслеживать следующие характеристики:
Анализ причин ошибок модели позволяет получить важную информацию об изменениях в ее работе. Поэтому следует:
При создании системы мониторинга деградации моделей важно не только правильно определить контролируемые показатели, но и выбрать инструменты его проведения. Это может быть как собственная разработка компании, так и специализированная платформа, или гибридный подход, в зависимости от наличия соответствующих ресурсов.
Если в процессе мониторинга контролируемые параметры превысили заданные пороги, что вызвало подозрение о возникновении деградационных явлений в работе модели, то должны быть своевременно сформированы и разосланы соответствующие сигналы, которые позволят в ручном или автоматическом режиме инициировать действия, направленные на решение проблемы.
Как показывает практика, ни один контролируемый в процессе мониторинга показатель не в состоянии в одиночку надежно сигнализировать о деградации модели. Для этого необходимо объединить несколько сигналов. При этом, как правило, используют многоуровневый подход, выделяя несколько сигнальных уровней:
При принятии решений о том, можно ли считать поведение модели деградацией и следует ли инициировать соответствующие действия, очень важно правильно настроить пороги для отслеживания изменений контролируемых в процессе мониторинга величин.
Слишком жесткие пороговые значения приводят к ложным срабатываниям. В результате приходится излишне часто переобучивать модель и даже перестраивать ее структуру, что требует времени и приводит к приостановке рабочих процессов, в которых она задействована, и ведет к прямым убыткам бизнеса.
С другой стороны, слишком мягкие пороги приводят к пропускам критического падения точности модели. В этом случае бизнес несет потери из-за принятия плохих решений на основе неточных предсказаний модели (например, выдали большое количество кредитов людям, для которых высока вероятность дефолта).
Чтобы корректно установить пороги, можно воспользоваться следующими рекомендациями:
Практические пороговые значения для распространенных сценариев представлены в таблице ниже.
| Тип модели | Метрики производительности | Порог предупреждения | Порог реагирования |
|---|---|---|---|
| Обнаружение мошенничества | Полнота | Снижение от базового уровня на 2% | Снижение от базового уровня на 5% |
| Рекомендательная | Показатель кликабельности (CTR) | Снижение 1-2% | Снижение 3-5% |
| Оптимизация цены | MAE (%) | Возрастание 3% | Возрастание 5% |
| Скоринг лидов | AUC-ROC | Снижение 3% | Снижение 5% |
| Предсказание ухода | Точность (Precision) | Снижение 3% | Снижение 5% |
Как только в процессе мониторинга обнаруживаются симптомы деградации модели, должны запускаться механизмы ее корректировки с целью восстановления производительности. Это обычно реализуется с помощью переобучения модели на актуальных данных. При этом возникает необходимость выбрать стратегию и реализовать соответствующие сценарии. Здесь возможны несколько подходов.
Фиксированный график — ежедневно, еженедельно, ежемесячно, ежеквартально. Его имеет смысл использовать в следующих случаях:
При этом возможны следующие сценарии переобучения:
Преимуществами подхода являются простота реализации и планирования, предсказуемость, постепенная адаптация к плавным изменениям в данных, не требует сложных механизмов выявления деградации. К недостаткам следует отнести невозможность подбора оптимального интервала коррекции модели если процессы деградации идут неравномерно во времени, а также принцип «все или ничего» — не делается различия между сильным и слабым падением точности модели.
Событийный подход. Является более сложным: процесс переобучения модели автоматически запускается при наступлении определенного события (триггера) — превышения порога изменения одного или нескольких метрик производительности. Целесообразно использовать в следующих случаях:
При этом определяют основное и вторичное событие. Основное, обычно, когда показатель производительности падает ниже порогового значения. Вторичное — значительное изменение распределения данных, когда индекс стабильности популяции становится больше порога или некоторые внешние события (выпуск крупного продукта конкурентом, изменение нормативных требований, сезонные изменения и т.д.).
Кроме этого, можно указать минимальный интервал запуска процесса переобучения модели, чтобы оно не происходило слишком часто.
Преимуществами подхода являются то, переобучение модели производится только при необходимости, быстрая реакция на внезапные изменения направления движения метрик производительности, экономия вычислительных ресурсов. Недостатки подхода в том, что требуются сложные процедуры мониторинга производительности, возможно неудачная установка порогов, из-за чего будут происходить ложные срабатывания и необоснованный запуск переобучения модели. Кроме этого, если порог слишком жесткий, возможен запуск процесса корректировки модели с задержкой (пока накопится достаточное снижение производительности).
Гибридный подход. Является подходящим для большинства случаев. Создается некоторый базовый график на основе фиксированных интервалов (например, еженедельный). Вместе с тем, процесс переобучения может быть запущен внутри базового интервала, если сработал триггер (был превышен порог изменения показателя производительности). При этом задается минимальный интервал запуска.
Подход обеспечивает стабильность модели за счет предсказуемого графика переобучения, но при этом оперативно реагирует на реальные изменения в работе модели.
После того, как сценарий управления процессом переобучения настроен, возникает следующий вопрос: следует ли переобучать модель полностью («с нуля») или делать это поэтапно.
Полное переобучение включает:
Причинами, по которым требуется полное переобучение, могут быть:
Процесс переобучения требует следующих действий:
Остается открытым вопрос: нужно ли использовать только новые данные (т.е. те, которые появились после предыдущего обучения модели) или также и исторические (т.е. те, на которых обучалась исходная модель). На практике чаще реализуют стратегию, когда используют и те, и другие данные, но новым в процессе переобучения придается больший вес. Это позволит, с одной стороны, избежать «забывания» новой моделью зависимостей и закономерностей, которые «знала» исходная модель, и в то же время обучиться новым зависимостям и закономерностям, которые содержатся в новых данных.
Преимуществами полного переобучения является учет всех имеющихся данных, возможность реконфигурации модели, простота понимания и отладки. К недостаткам можно отнести значительные вычислительные затраты, особенно на больших наборах данных, длительный период переподготовки, что ограничивает минимальный возможный интервал переобучения и неэффективная обработка плавных изменений производительности. Кроме этого, поскольку фактически получается новая модель, приходится развертывать ее заново, что также создает определенные риски.
Поэтапное переобучение предполагает использование только новых данных, созданных с момента прошлого обучения (или переобучения) модели. Имеет смысл использовать в случаях:
Преимуществами подхода являются небольшие вычислительные и временные затраты, что позволяет переобучать модель часто, адаптируя к плавным изменениям бизнес-окружения. Недостатки — возможность забывания моделью зависимостей и закономерностей имеющихся в исторических данных, риск накопления ошибок.
Еще одной проблемой, связанной с деградацией моделей и необходимостью их корректировки для восстановления производительности, является вынужденная приостановка поддержки моделью соответствующего бизнес-процесса. Это может привести к его частичной или полной остановке на время «ремонта» модели и потери прибыли, либо к переходу управления бизнес-процессом в ручной режим, что увеличивает риск ошибочных решений, приводящих к убыткам.
Чтобы решить проблему «простоя» модели, возможно использование ансамбля моделей, обученных на разных подмножествах данных, предсказания которых агрегируются с целью повышения точности. Подход позволяет плавно отказываться от устаревших, деградировавших моделей и плавно «накатывать» новые, актуальные модели, не останавливая ход бизнес-процесса.
Метод реализуется следующим образом:
Способность моделей оставаться точными и создающими высокую бизнес-ценность на протяжении длительных периодов времени, полностью зависит от систем их поддержки в производственной среде. Таким образом, решение проблемы деградации моделей в машинном обучении является достаточно затратным и трудоемким, хотя и необходимым процессом. При этом его ручная реализация малоперспективна, поскольку оказывается слишком сложной и длительной, а кроме того связана с большими рисками и ошибками.
Поэтому единственно правильным подходом является комплексная автоматизация всего процесса мониторинга снижения производительности вследствие деградации модели и ее восстановления. Для этого необходимо создавать автоматизированные конвейеры, которые включают процедуры проверки и подготовки данных, выполнения переобучения или иной коррекции моделей, ее всестороннее оценивание и непрерывное разворачивание в производственной среде.
Другие материалы по теме: