Одной из актуальных задач анализа данных является сравнение статистических моделей с различным числом параметров, которое позволяет находить компромисс между точностью и сложностью модели. Для этих целей используются информационные критерии, которые и рассматриваются в данной статье.
В статистике информационными критериями называют инструменты оценки качества и сравнения статистических моделей, в том числе и различных видов регрессии, на одной и той же обучающей выборке. Информационными эти критерии называются потому, что основаны на понятиях теории информации и информационной энтропии.
Говоря простыми словами, модель, выдавая предсказания, работает как генератор информации. Но поскольку предсказания реальной модели всегда не точные, то по сравнению с идеальной моделью, которая не делает ошибок, реальная допускает потерю информации. Именно оценкой этой потери информации и являются информационные критерии. При этом чем меньше значение критерия, тем меньше потеря информации, связанная с моделью, и тем лучше модель соответствует данным.
Информационные критерии могут применяться только с целью сравнения моделей без содержательной интерпретации значений самих критериев. Этим они отличаются от метрик, основанных на ошибках, которые отражают степень рассогласования фактического и предсказанного моделью значений. Это значит, что по величине информационного критерия ничего нельзя сказать о точности модели. Чем меньше значения критерия, тем лучше считается модель.
Информационных критериев существует несколько:
AIC позволяет сравнивать несколько статистических моделей друг с другом для того, чтобы определить, какая из моделей лучше соответствует данным. Особенностью критерия является введение штрафа за число параметров модели.
Действительно, параметры статистической модели, например, коэффициенты регрессии, оцениваются на основе обучающих данных. Поэтому, с одной стороны, включение в модель новых параметров увеличивает количество информации, привлекаемой для построения модели и, соответственно, ее точность. С другой — происходит улучшение подгонки модели именно к обучающим данным, что ведет к переобучению. Введение штрафов на значение информационного критерия за число параметров модели позволяет решить эту проблему.
Пусть построено несколько регрессионных моделей с различными наборами параметров. Тогда с помощью AIC их можно ранжировать от лучшей к худшей. При этом само значение критерия не отражает абсолютное качество модели, а только говорит о том, какая модель лучше или хуже другой в части соответствия обучающим данным. Поэтому если все построенные модели изначально плохие, то будет выбрана лучшая из плохих моделей.
Следовательно, даже после выбора модели с помощью AIC, целесообразно провести оценку качества модели с использованием ошибки обучения или на основе статистических критериев определить степень зависимости выходной переменной от набора входных.
Особенно полезно использование AIC, когда оценить качество моделей на тестовом множестве затруднительно, например, ввиду недостаточного объема обучающих данных.
AIC работает, оценивая соответствие модели обучающим данным и добавляя штраф за сложность модели. Желаемый результат состоит в том, чтобы найти наименьший возможный
AIC, который указывает на лучший баланс между точностью и обобщающей способностью модели.
Значение критерия вычисляется по формуле:
AIC=-2ln(\widehat{L})+2k,
где \widehat{L} — максимальное значение логарифмической функции правдоподобия модели, k — количество параметров модели, n — число примеров обучающей выборки.
Логарифмическая функция правдоподобия отражает вероятность того, что значение, предсказанное моделью, будет соответствовать фактическому. Логарифмирование используется для удобства вычислений.
AIC мал для моделей с высоким значением логарифмического правдоподобия (т.е. модель лучше соответствует данным), но добавляет штраф для моделей с большим числом параметров, поскольку увеличение числа параметров приводит к росту вероятности того, что модель будет лучше соответствовать только обучающему набору данных и, следовательно, иметь тенденцию к переобучению.
На практике контроль за эффектом переобучения производится с помощью «вневыборочных» данных, т.е. тестового множества. И если оно недоступно из-за малого объема данных, то AIC позволяет не допустить переобучения.
При использовании AIC необходимо, чтобы были удовлетворены следующие предположения:
Последнее предположение связано с тем, что AIC сходится к истинному значению только на выборке бесконечного размера. Часто для хорошего приближения достаточно просто большой обучающей выборки, но сам факт использование AIC означает, что объем доступных данных недостаточен для формирования тестового множества. Если объем обучающей выборки мал, то AIC имеет тенденцию переоценивать модели с большим числом параметров.
Существует формула для расчета AIC с поправкой на размер выборки, называемая AIC_{c} (скорректированный критерий Акаике). Она добавляет поправочный член, который сходится к ответу AIC для больших выборок, но дает более точный ответ для выборок меньшего размера.
AIC_{c}=AIC+\frac{2k^{2}+2k}{n-k-1},
где k — количество параметров модели, n — число примеров обучающей выборки.
Использование AIC_{c} целесообразно, когда отношение числа примеров обучающей выборки к количеству параметров модели меньше 40.
Как следует интерпретировать результаты оценок моделей с помощью AIC/AIC_{c}? Ведь фактически мы получаем ранжирование моделей в соответствии с полученными значениями критерия (т.е. по уровню соответствия моделей данным). Ожидаемо, что требуется выбрать модель с наименьшим значением критерия.
Предположим, рассчитан AIC для нескольких моделей, и получен ряд оценок (AIC_{1},AIC_{2},...,AIC_{n}). Для любого заданного AIC_{i} можно рассчитать по приведенной ниже формуле, где AIC_{min} — это самый низкий показатель AIC в полученном ряду оценок, вероятность того, что «i-модель» сведет к минимуму потерю информации:
P=exp\left (\frac{AIC_{min}-AIC_{i}}{2} \right ).
Величину P, таким образом, можно интерпретировать как пропорциональную вероятности того, что модель с AIC_{min} минимизирует потерю информации. Данную величину еще называют относительным правдоподобием.
Например, пусть имеются три модели-кандидата со значениями AIC равными AIC_{1}=100, AIC_{2}=102 и AIC_{3}=110. Тогда:
P_{2}=exp\left (\frac{100-102}{2} \right )=0.368.
Это означает, что величина P для модели с AIC_{2}=102 в 0.368 раза выше, чем для модели c AIC_{min}. Аналогично, рассчитаем P для модели AIC3=110:
P_{3}=exp\left (\frac{100-110}{2} \right )=0.007.
Вероятность того, что AIC_{3}=110 будет соответствовать лучшей модели, всего в 0.007 раза выше, чем у модели с AIC_{1}=100.
Вероятность P_{1} для модели с минимальным AIC рассчитывать нет смысла, поскольку при этом модель сравнивается сама с собой.
Это означает, что узнать, насколько одна модель лучше другой с помощью AIC нельзя. Если точность выбора не имеет первостепенного значения, и нужно просто выбрать модель с наименьшим AIC, и при этом имеются модели, у которых значения AIC близки к минимальному, то скорее всего, эти модели будут равнозначны.
Байесовский информационный критерий или, как его еще называют, критерий Шварца, тесно связан с критерием Акаике и также использует функцию правдоподобия. Аналогично AIC, лучшей модели соответствует меньшее значение критерия.
Так же, как и AIC, BIC штрафует модель за число параметров, чтобы предотвратить переобучение, но штраф сильнее. Формально байесовский информационный критерий определяется следующим образом:
BIC=k\cdot ln(n)-2ln(\widehat{L}),
где n — размер выборки, на которой строится модель, k — число параметров модели, \widehat{L} — максимальное значение функции правдоподобия, т.е. \widehat{L}=p(x|\widehat{\theta }), где \widehat{\theta } — набор параметров модели, доставляющий максимум функции правдоподобия.
Таким образом, байесовский критерий является аналогом критерия Акаике с более строгой функцией штрафа. При этом BIC хорошо работает только на выборках большого объема.
Данный критерий также позволяет производить выбор лучшей модели из набора моделей с разным числом параметров. Является альтернативной критериям AIC и BIC. Вычисляется по формуле:
HQC=-2\widehat{L}+2k\cdot ln(ln(n)),
где n — размер выборки, на которой строится модель, k — число параметров модели, \widehat{L} — максимальное значение функции правдоподобия.
Иногда значение критерия рассчитывается по альтернативной формуле:
HQC=\frac{-2\widehat{L}}{n}+2k \frac{ln(ln(n))}{n}.
HQC накладывает более мягкий штраф на сложные модели, чем AIC.
Приведенные критерии являются наиболее популярными для большинства практических приложений. Однако в литературе можно встретить упоминание и о других информационных критериях, используемых в некоторых специфических задачах.
Среди них, например, критерий Ватанабе-Акаике (Watanabe–Akaike information criterion
— WAIC), который используется для оценки качества сингулярных моделей, а также сфокусированный информационный критерий (focused information criterion — FIC) отличающийся от других информационных критериев определением так называемого фокус-параметра — некоторой представляющей интерес величины, которая зависит от параметров модели и может быть оценена по данным (обычно её обозначают \mu).
FIC не оценивает общее соответствие моделей-кандидатов данным, а сосредотачивается непосредственно на фокус-параметре, например, математическом ожидании, для которого конкурирующие модели дают разные оценки. Метод FIC состоит в том, чтобы сначала разработать точное или приблизительное выражение для меры точности или качества, а затем использовать данные для их оценки. В итоге выбирается модель с наилучшей оценочной точностью.
В данной статье рассмотрены основные информационные критерии оценки качества моделей регрессии. Явных рекомендаций по выбору того или иного критерия не существует. Отличие критериев состоит, главным образом, в форме функции штрафа, накладываемого на модель за число переменных. Так, байесовский критерий накладывает более жесткий штраф, чем критерий Акаике, а Ханнана-Куинна — более мягкий. В большинстве случаев, чтобы получить полную картину, может потребоваться применение всех перечисленных основных критериев.
Другие материалы по теме:
Метрики качества линейных регрессионных моделей