Информационные критерии качества моделей регрессии

6 февраля 2023

Одной из актуальных задач анализа данных является сравнение статистических моделей с различным числом параметров, которое позволяет находить компромисс между точностью и сложностью модели. Для этих целей используются информационные критерии, которые и рассматриваются в данной статье.

В статистике информационными критериями называют инструменты оценки качества и сравнения статистических моделей, в том числе и различных видов регрессии, на одной и той же обучающей выборке. Информационными эти критерии называются потому, что основаны на понятиях теории информации и информационной энтропии.

Говоря простыми словами, модель, выдавая предсказания, работает как генератор информации. Но поскольку предсказания реальной модели всегда не точные, то по сравнению с идеальной моделью, которая не делает ошибок, реальная допускает потерю информации. Именно оценкой этой потери информации и являются информационные критерии. При этом чем меньше значение критерия, тем меньше потеря информации, связанная с моделью, и тем лучше модель соответствует данным.

Информационные критерии могут применяться только с целью сравнения моделей без содержательной интерпретации значений самих критериев. Этим они отличаются от метрик, основанных на ошибках, которые отражают степень рассогласования фактического и предсказанного моделью значений. Это значит, что по величине информационного критерия ничего нельзя сказать о точности модели. Чем меньше значения критерия, тем лучше считается модель.

Информационных критериев существует несколько:

Информационный критерий Акаике (Akaike information criterion — $AIC$ ).
Скорректированный информационный критерий Акаике (Akaike information criterion corrected — $AIC_{c}$ ).
Байесовский информационный критерий (Bayesian information criterion — $BIC$ ).
Информационный критерий Ханнана-Куинна (Hannan–Quinn information criterion — $HQC$ ).

Информационный критерий Акаике

$AIC$ позволяет сравнивать несколько статистических моделей друг с другом для того, чтобы определить, какая из моделей лучше соответствует данным. Особенностью критерия является введение штрафа за число параметров модели.

Действительно, параметры статистической модели, например, коэффициенты регрессии, оцениваются на основе обучающих данных. Поэтому, с одной стороны, включение в модель новых параметров увеличивает количество информации, привлекаемой для построения модели и, соответственно, ее точность. С другой — происходит улучшение подгонки модели именно к обучающим данным, что ведет к переобучению. Введение штрафов на значение информационного критерия за число параметров модели позволяет решить эту проблему.

Пусть построено несколько регрессионных моделей с различными наборами параметров. Тогда с помощью $AIC$ их можно ранжировать от лучшей к худшей. При этом само значение критерия не отражает абсолютное качество модели, а только говорит о том, какая модель лучше или хуже другой в части соответствия обучающим данным. Поэтому если все построенные модели изначально плохие, то будет выбрана лучшая из плохих моделей.

Следовательно, даже после выбора модели с помощью $AIC$ , целесообразно провести оценку качества модели с использованием ошибки обучения или на основе статистических критериев определить степень зависимости выходной переменной от набора входных.

Особенно полезно использование $AIC$ , когда оценить качество моделей на тестовом множестве затруднительно, например, ввиду недостаточного объема обучающих данных.

$AIC$ работает, оценивая соответствие модели обучающим данным и добавляя штраф за сложность модели. Желаемый результат состоит в том, чтобы найти наименьший возможный
$AIC$ , который указывает на лучший баланс между точностью и обобщающей способностью модели.

Значение критерия вычисляется по формуле:

$AIC=-2ln(\widehat{L})+2k$ ,

где $\widehat{L}$ — максимальное значение логарифмической функции правдоподобия модели, $k$ — количество параметров модели, $n$ — число примеров обучающей выборки.

Логарифмическая функция правдоподобия отражает вероятность того, что значение, предсказанное моделью, будет соответствовать фактическому. Логарифмирование используется для удобства вычислений.

$AIC$ мал для моделей с высоким значением логарифмического правдоподобия (т.е. модель лучше соответствует данным), но добавляет штраф для моделей с большим числом параметров, поскольку увеличение числа параметров приводит к росту вероятности того, что модель будет лучше соответствовать только обучающему набору данных и, следовательно, иметь тенденцию к переобучению.

На практике контроль за эффектом переобучения производится с помощью «вневыборочных» данных, т.е. тестового множества. И если оно недоступно из-за малого объема данных, то $AIC$ позволяет не допустить переобучения.

При использовании $AIC$ необходимо, чтобы были удовлетворены следующие предположения:

для построения сравниваемых моделей используется один и тот же набор данных;
все модели имеют одну и ту же выходную переменную;
обучающая выборка имеет бесконечный размер.

Последнее предположение связано с тем, что $AIC$ сходится к истинному значению только на выборке бесконечного размера. Часто для хорошего приближения достаточно просто большой обучающей выборки, но сам факт использование $AIC$ означает, что объем доступных данных недостаточен для формирования тестового множества. Если объем обучающей выборки мал, то $AIC$ имеет тенденцию переоценивать модели с большим числом параметров.

Скорректированный информационный критерий Акаике

Существует формула для расчета $AIC$ с поправкой на размер выборки, называемая $AIC_{c}$ (скорректированный критерий Акаике). Она добавляет поправочный член, который сходится к ответу $AIC$ для больших выборок, но дает более точный ответ для выборок меньшего размера.

$AIC_{c}=AIC+\frac{2k^{2}+2k}{n-k-1}$ ,

где $k$ — количество параметров модели, $n$ — число примеров обучающей выборки.

Использование $AIC_{c}$ целесообразно, когда отношение числа примеров обучающей выборки к количеству параметров модели меньше 40.

Как следует интерпретировать результаты оценок моделей с помощью $AIC/AIC_{c}$ ? Ведь фактически мы получаем ранжирование моделей в соответствии с полученными значениями критерия (т.е. по уровню соответствия моделей данным). Ожидаемо, что требуется выбрать модель с наименьшим значением критерия.

Предположим, рассчитан $AIC$ для нескольких моделей, и получен ряд оценок $(AIC_{1},AIC_{2},...,AIC_{n})$ . Для любого заданного $AIC_{i}$ можно рассчитать по приведенной ниже формуле, где $AIC_{min}$ — это самый низкий показатель $AIC$ в полученном ряду оценок, вероятность того, что «i-модель» сведет к минимуму потерю информации:

$P=exp\left (\frac{AIC_{min}-AIC_{i}}{2} \right )$ .

Величину $P$ , таким образом, можно интерпретировать как пропорциональную вероятности того, что модель с $AIC_{min}$ минимизирует потерю информации. Данную величину еще называют относительным правдоподобием.

Например, пусть имеются три модели-кандидата со значениями $AIC$ равными $AIC_{1}=100$ , $AIC_{2}=102$ и $AIC_{3}=110$ . Тогда:

$P_{2}=exp\left (\frac{100-102}{2} \right )=0.368$ .

Это означает, что величина $P$ для модели с $AIC_{2}=102$ в 0.368 раза выше, чем для модели c $AIC_{min}$ . Аналогично, рассчитаем $P$ для модели $AIC3=110$ :

$P_{3}=exp\left (\frac{100-110}{2} \right )=0.007$ .

Вероятность того, что $AIC_{3}=110$ будет соответствовать лучшей модели, всего в 0.007 раза выше, чем у модели с $AIC_{1}=100$ .

Вероятность $P_{1}$ для модели с минимальным $AIC$ рассчитывать нет смысла, поскольку при этом модель сравнивается сама с собой.

Это означает, что узнать, насколько одна модель лучше другой с помощью $AIC$ нельзя. Если точность выбора не имеет первостепенного значения, и нужно просто выбрать модель с наименьшим $AIC$ , и при этом имеются модели, у которых значения $AIC$ близки к минимальному, то скорее всего, эти модели будут равнозначны.

Байесовский информационный критерий

Байесовский информационный критерий или, как его еще называют, критерий Шварца, тесно связан с критерием Акаике и также использует функцию правдоподобия. Аналогично $AIC$ , лучшей модели соответствует меньшее значение критерия.

Так же, как и $AIC$ , $BIC$ штрафует модель за число параметров, чтобы предотвратить переобучение, но штраф сильнее. Формально байесовский информационный критерий определяется следующим образом:

$BIC=k\cdot ln(n)-2ln(\widehat{L})$ ,

где $n$ — размер выборки, на которой строится модель, $k$ — число параметров модели, $\widehat{L}$ — максимальное значение функции правдоподобия, т.е. $\widehat{L}=p(x|\widehat{\theta })$ , где $\widehat{\theta }$ — набор параметров модели, доставляющий максимум функции правдоподобия.

Таким образом, байесовский критерий является аналогом критерия Акаике с более строгой функцией штрафа. При этом $BIC$ хорошо работает только на выборках большого объема.

Информационный критерий Ханнана-Куинна

Данный критерий также позволяет производить выбор лучшей модели из набора моделей с разным числом параметров. Является альтернативной критериям $AIC$ и $BIC$ . Вычисляется по формуле:

$HQC=-2\widehat{L}+2k\cdot ln(ln(n))$ ,

где $n$ — размер выборки, на которой строится модель, $k$ — число параметров модели, $\widehat{L}$ — максимальное значение функции правдоподобия.

Иногда значение критерия рассчитывается по альтернативной формуле:

$HQC=\frac{-2\widehat{L}}{n}+2k \frac{ln(ln(n))}{n}$ .

$HQC$ накладывает более мягкий штраф на сложные модели, чем $AIC$ .

Альтернативные критерии

Приведенные критерии являются наиболее популярными для большинства практических приложений. Однако в литературе можно встретить упоминание и о других информационных критериях, используемых в некоторых специфических задачах.

Среди них, например, критерий Ватанабе-Акаике (Watanabe–Akaike information criterion
— $WAIC$ ), который используется для оценки качества сингулярных моделей, а также сфокусированный информационный критерий (focused information criterion — $FIC$ ) отличающийся от других информационных критериев определением так называемого фокус-параметра — некоторой представляющей интерес величины, которая зависит от параметров модели и может быть оценена по данным (обычно её обозначают $\mu$ ).

$FIC$ не оценивает общее соответствие моделей-кандидатов данным, а сосредотачивается непосредственно на фокус-параметре, например, математическом ожидании, для которого конкурирующие модели дают разные оценки. Метод $FIC$ состоит в том, чтобы сначала разработать точное или приблизительное выражение для меры точности или качества, а затем использовать данные для их оценки. В итоге выбирается модель с наилучшей оценочной точностью.

В данной статье рассмотрены основные информационные критерии оценки качества моделей регрессии. Явных рекомендаций по выбору того или иного критерия не существует. Отличие критериев состоит, главным образом, в форме функции штрафа, накладываемого на модель за число переменных. Так, байесовский критерий накладывает более жесткий штраф, чем критерий Акаике, а Ханнана-Куинна — более мягкий. В большинстве случаев, чтобы получить полную картину, может потребоваться применение всех перечисленных основных критериев.

Другие материалы по теме:

Метрики качества линейных регрессионных моделей

Отбор переменных в моделях линейной регрессии

Репрезентативность выборочных данных