Отбор переменных в моделях линейной регрессии

В статистике и машинном обучении задача отбора переменных (признаков, атрибутов, предикторов) для построения аналитической модели заключается в выделении среди всех признаков исходного набора данных, некоторого их подмножества, обеспечивающего лучшее качество модели.

Введение

В анализе данных под термином «отбор переменных» понимают процесс выбора из всего множества признаков, доступных в наборе данных, некоторого их подмножества, содержащего только наиболее значимые с точки зрения решения задачи признаки, которые и будут использованы в модели в качестве переменных.

Значимость здесь понимается в двух аспектах: релевантность и избыточность. Первый — признаки, используемые для построения модели, должны в достаточной степени влиять на зависимую переменную и отражать зависимости и закономерности предметной области. Второй — признаки не должны быть коррелированны, т.е. нести одну и ту же информацию (например, цены в долларах и в рублях).

Особенно эта проблема актуальна для моделей линейной регрессии, где незначимые и избыточные переменные не только увеличивают размерность задачи без повышения качества решения, но и снижают устойчивость модели.

Цели и задачи отбора переменных

Реальные бизнес-процессы описываются большим числом признаков. Поэтому предсказательные модели для этих бизнес-процессов могут содержать большое число переменных. При построении модели перед аналитиком возникает вопрос: нужно ли включать в модель в качестве переменных все доступные признаки и если нет, то сколько и какие следует использовать.

Рекомендации здесь неоднозначны. С одной стороны чем больше переменных используется при построении модели, тем больше информации привлекается, и тем более точной и адекватной ожидается модель. С другой стороны, при увеличении размерности пространства признаков растёт вычислительная сложность и сокращается интерпретируемость модели.

Таким образом, процедура отбора признаков решает следующие задачи:

  1. Упрощение моделей с целью улучшения их интерпретируемости.
  2. Сокращение размерности пространства признаков.
  3. Уменьшение временных и вычислительных затрат на построение и эксплуатацию модели.
  4. Повышение обобщающей способности модели и борьба с переобучением.

В основе идеи отбора признаков лежит понимание того, что не все обучающие данные являются полезными: они могут содержать избыточные и незначащие (нерелевантные) признаки, которые могут быть удалены без существенной потери информации и ухудшения качества модели. При этом даже значимый признак может оказаться избыточным, если коррелирует с другим значимым признаком.

Технология отбора признаков основана на формировании подмножеств из общего числа признаков и вычисления для каждого из них некоторой оценки качества. Простейшей из таких оценок является ошибка модели: выбирается тот набор признаков, который минимизирует ошибку. Однако на практике этот подход реализуем только для задач небольшой размерности, поскольку для большого числа признаков формируется огромное число подмножеств, которое требуется проверить.

Выделяют четыре класса методов отбора признаков:

  1. Обёрточные (wrapper) методы — используют предсказательное моделирование для оценивания подмножеств признаков. Каждое подмножество используется для обучения модели, а затем модель проверяется на тестовом множестве. Лучшим принимается то подмножество признаков, для которого количество ошибок минимально. Несмотря на то, что как отмечалось выше, данный метод требователен к вычислительным ресурсом, он позволяет получить наилучший результат для конкретного вида задачи и аналитической модели. Кроме этого, обёрточные методы склонны к переобучению. Рассмотренные в статье методы относятся именно к этой категории.
  2. Методы фильтрации используют косвенные меры качества модели вместо ошибки, например корреляцию между входными переменными и выходной. В простейшем случае для каждой входной переменной вычисляется коэффициент корреляции с выходной, и исключаются те переменные, для которых он ниже заданного порога. Таким образом формируется своего рода фильтр, которые пропускает переменные с сильной корреляцией относительно выходной, и "подавляют" со слабой. Методы фильтрации менее требовательны к вычислительным ресурсам, чем обёрточные методы, но являются общими и не ориентированы на конкретный вид модели, поэтому обычно показывают несколько худшие результаты.
  3. Встроенные (embedded) методы. Представляют наиболее универсальную группу методов, в которых отбор признаков рассматривается как часть процесса построения модели. Встроенные методы специфичны для конкретной модели.
  4. Рекурсивные методы отбора (Recursive Feature Elimination — RFE). В этом случае ищутся не подмножества признаков, а каждому признаку присваиваются веса, по которым они ранжируются. Затем исключаются признаки с малыми весами. Присвоение весов производится с помощью специальной модели-оценщика, которая сначала обучается на начальном наборе признаков. Затем признаки с малыми весами исключаются и обучение производится снова, в результате чего веса оставшихся признаков вновь меняются. И так рекурсивно производится до тех пор, пока не будет получен оптимальный набор признаков.

Постановка задачи

Зададим признаковое описание объекта с использованием следующих обозначений. Каждая независимая переменная представлена вектором-столбцом x_j=(x_{j1},...,x_{jm}), а зависимая y_i=(y_{i1},...,y_{im}). Тогда

y=b_1x_1+...+b_nx_n

или в матричном представлении

y=Xb,

где X — матрица признаков со столбцами x_1,...,x_nb=(b_1,...,b_n) — вектор параметров модели.

Пусть задана выборка D=\{x_i,y_i\},i=1..m, состоящая из m пар, включающих векторы значений зависимых переменных x_i=(x_{ij}),j=1..n и значений единственной независимой переменной y_i. Индексы наблюдений i и индекс независимых переменных j, будем рассматривать как элементы множеств i∈I=\{1,...,m\}, j∈J=\{1,...,n\}.

Также пусть задано разбиение на обучающее и тестовое множества L и TI=L∪T.

Зададим модель линейной регрессии в виде:

y_i=f_s(b_sx_i)=\sum\limits_{j=1}^{n}b_{j}x_{ij},

где s=\{1,...,2^{n}\} — индекс модели, b_s=(b_j) — вектор параметров модели.

Алгоритм выбора модели задаёт метод оптимизации, доставляющий оптимальное значение параметрам \widehat{b} модели на обучающей выборке. Минимизируемый функционал качества модели определим как сумму квадратов остатков регрессии:

S=\sum\limits_{i=1}^{n}(y_i−f(b_sx_i))^{2}. (1)

Требуется найти такую модель, которая обеспечит минимум данному функционалу качества. В литературе величину S часто обозначают RSS — Residual Sum of Squares (сумма квадратов остатков).

Принудительное (полное) включение — включение в аналитическую модель всех доступных в обучающем наборе признаков. Этот подход целесообразно использовать в следующих случаях:

  1. Количество признаков относительно невелико и их полное включение не приводит к излишней сложности модели как в плане интерпретируемости, так и в плане вычислительной сложности.
  2. Исключение любого признака приводит к критичному уменьшению количества информации, используемой для обучения модели. Иными словами, когда незначимые и избыточные признаки просто отсутствуют.

Прямое включение (Forward selection) — метод, который базируется на принципе: начать с пустой модели, в которой признаки отсутствуют и постепенно добавляя признаки найти самые «лучшие».

Обратное исключение (Backward elimination) — исходная модель содержит все признаки, которые поочерёдно исключаются с целью найти «худшие» и не применять их в модели.

Пошаговое включение/исключение (Stepwise) — модификация метода прямого включения с тем отличием, что на каждом шаге после включения новой переменной в модель, осуществляется проверка на значимость остальных переменных, которые уже были введены в нее ранее (М.А. Эфраимсон, 1960).

Гребневая регрессия (Ridge regression) — использует процедуру регуляризации для ограничения пространства решений с целью сделать модель более устойчивой в случае высокой коррелированности входных признаков. Подразумевает введение штрафов для уменьшения значений коэффициентов регрессии. При этом значения параметров модели не обращаются в ноль, т.е. отбора переменных не происходит.

LASSO-регрессия — также использует регуляризацию для повышения устойчивости модели. Но отличается от гребневой регрессии тем, что допускает обнуление параметров модели (т.е. реализует процедуру отбора).

Регрессия «Эластичная сеть» — также использует регуляризацию, но в отличии от гребневой регрессии в ней применяет два регуляризующих члена.

Прямое включение (Forward selection)

Работа начинается с «нулевой модели», которая не содержит ни одной переменной. На первом шаге поочерёдно в «пустую модель» включаются по одной переменной и выбирается та, которая обеспечивает лучший результат. Затем в модель, содержащую единственную переменную поочерёдно добавляются оставшиеся переменные и выбирается та, которая обеспечивает наибольшее улучшение качества модели. Схематично метод представлен на рис. 1.

Рис. 1. Метод прямого включенияРис. 1. Метод прямого включения

В роли критерия качества модели обычно используется F-критерий (критерий Фишера):

F= \frac {\ {S_1−S_2} } {\ S_2}\frac {\ {m−n_2} } {\ {n_1-n_2} }, (2)

где S_1 — сумма квадратов остатков для модели с исходным числом параметров n_1 (короткой модели), S_2 — сумма квадратов остатков для модели с увеличенным числом параметров n_2. Разности n_1−n_2 и m−n_2 представляют собой числа степеней свободы F-распределения.

Несложно увидеть, что статистика F-теста практически представляет собой отношение двух масштабируемых с помощью чисел степеней свободы сумм квадратов, отражающих различные источники изменчивости исходных данных. Эти суммы квадратов построены таким образом, что статистика F-критерия имеет большие значения когда нулевая гипотеза не верна. Иными словами, если нулевая гипотеза критерия предполагает, что добавление новой переменной в модель не увеличивает значимо её точность, то чем выше F, тем больше вероятность что эта гипотеза неверна и переменная является значимой.

Если значение критерия больше заданного порога, то добавление переменной значимо увеличивает качество модели (соответствие модели исходным данным) и, следовательно, целесообразно. Процесс повторяется до тех пор пока не будет выполнено некоторое правило остановки, либо переменные не будут исчерпаны.

Иными словами, лучшим кандидатом на включение в модель будет та переменная, которая обеспечит наибольшее сокращение квадрата остатков регрессии или, что эквивалентно, наибольшее значение статистики F-критерия.

Альтернативными подходами могут быть следующие:

  • наименьшее p-значение, обеспечиваемое «длинной моделью»;
  • наибольшее увеличение коэффициента детерминации R-квадрат. В этом случае статистика F-критерия будет: F=\frac {\ {R^2/(k−1)} } {\ {(1-R^2)(m-k)} }, где k — число параметров модели, m — количество наблюдений в наборе данных.
  • наибольшее увеличение квадратичной ошибки регрессии (SSR — sum squares of regression) или объяснённой суммы квадратов (ESS — explained sum of squares). В этом случае вместо квадратов остатков (y−\widehat{y})^2, которая описывает (объясняет) вариативность данных относительно линии регрессии, минимизируемая в функционале (2), используется сумма квадратов отклонений оценок регрессии относительного среднего, т.е. (\overline{y}-\widehat{y})^{2}.

Иными словами, использование квадратичной суммы остатков показывает насколько хорошо модель соответствует данным, а использование квадратичной ошибки регрессии — насколько модель с заданным набором параметров объясняет изменчивость исходных данных лучше, чем простое среднее значение. Процедура, в которой используется сумма квадратов регрессии при оценке значимости переменной включаемой в модель (или исключаемой из неё), известна как частный F-тест.

Выбор критерия остановки отбора. Используется некоторый порог p-значения по достижении которого процесс отбора останавливается. Порог может быть выбран следующими способами:

Фиксированное значение порога одинаково для всех переменных. Пороги, устанавливаемые с помощью AIC и BIC, могут быть индивидуальными для разных переменных.

Значение порога, определяемого AIC, зависит от числа степеней свободы переменной. Например, если переменная бинарная и имеет число степеней свободы, равное 1, то для включения в модель она должна иметь p-значение меньше 0.157.

Критерий BIC определяет порог в зависимости от размера выборки n. Например, для n = 20 переменной потребуется значение p < 0.083, чтобы войти в модель. Чем больше n, тем ниже будет порог.

BIC является более строгим критерием, чем AIC, и дает модели меньшего размера. Поэтому его рекомендуется использовать только при работе с большими выборками, когда число наблюдений превышает 100 на одну независимую переменную.

Обратное исключение (Backward elimination)

Алгоритм отбора начинает работу с модели, содержащей все переменные (такая модель называется «полной»). Затем начинает удалять наименее значимые переменные одну за другой до тех пор, пока не будет достигнуто предварительно заданное правило остановки, или пока в модели не останется ни одной переменной. Как и в случае прямого отбора требуется определить наименее значимую переменную на каждом шаге и правило остановки.

Рис. 2. Метод обратного исключенияРис. 2. Метод обратного исключения

Очевидно, что первыми кандидатами на исключение являются переменные, которые наименее способствуют повышению качества модели. Аналогично методу прямого включения для оценки значимости изменения качества модели может быть использован критерий Фишера: лучшим кандидатом на исключение будет та переменная, для которой значение критерия Фишера выше заданного порога.

Наименее значимой является переменная:

  • с которой связано наибольшее p-значение;
  • исключение которой из модели вызывает наименьшее сокращение коэффициента детерминации R-квадрат;
  • исключение которой из модели вызывает наименьшее увеличение RSS (суммы квадратов остатков) по сравнению с другими признаками.

Выбор правила остановки

Правило остановки выполняется, когда все оставшиеся переменные в модели имеют p-значение меньше некоторого заранее заданного порога. Когда модель достигнет этого состояния, алгоритм обратного исключения завершится.

Как и в случае прямого выбора, порог может быть:

  • фиксированным значением (например: 0.05, 0.2 или 0.5);
  • определяется AIC;
  • определяется BIC.

Прямой отбор предпочтительно использовать, когда количество рассматриваемых переменных велико. Это связано с тем, что он начинается с нулевой модели и продолжает добавлять переменные по одной, и поэтому, в отличие от обратного отбора, он не рассматривает полную и близкие к ней модели.

Обратный отбор предпочтительно использовать если нужно рассмотреть полную модель, когда одновременном учитываются все переменные. При обратном отборе кандидаты на исключение могут и не появиться и все переменные останутся в модели.

Преимущества пошагового отбора:

  • простота реализации;
  • улучшение интерпретируемости модели;
  • снижение вычислительных затрат за счёт того, что рассматриваются не все переменные;
  • объективность — автоматический выбор позволяет избежать субъективности экспертных оценок.

Особенно оказываются полезными методы пошагового отбора в случае разведочного анализа данных, когда априорные сведения о решаемой задаче отсутствуют.

Недостатки пошагового отбора:

  • не рассматривает все возможные комбинации переменных, поэтому не гарантирует лучшего их набора;
  • приводит к смещенным оценкам коэффициентов регрессии, доверительных интервалов, p-значений и коэффициента R-квадрат;
  • формирует нестабильный набор переменных, особенно в случае, когда число переменных сравнимо с числом наблюдений. Это возможно когда разные наборы переменных одинаково воздействуют на выходную переменную и выражается в том, что каждый раз получается разный набор переменных. Чтобы избежать данного эффекта требуется, чтобы число наблюдений выборки на одну входную переменную было 50 и выше.
  • не учитывает причинно-следственные связи между переменными.

Пошаговое включение/исключение (Stepwise)

Здесь следует сказать несколько слов о терминологии. Приставка Stepwise (англ. — ступенчатый, пошаговый) regression (пошаговая регрессия) и stepwise forward/elimination (пошаговое включение/исключение) в контексте отбора переменных может использоваться в широком и узком смыслах.

В широком смысле «пошаговая» относится ко всем автоматическим методам отбора переменных с помощью их последовательного включения или исключения.

В узком смысле «пошаговая» относится к технике, которая представляет собой комбинацию прямого и обратного отбора. Её часто называют также Двунаправленный отбор (Bidirectional forward/elimination). В дальнейшем будем использовать «пошаговая» именно для обозначения этой техники (т.е. двунаправленный отбор или пошаговый отбор — синонимы).

В основе идеи пошаговой технологии лежит предположение, что признаки могут быть коррелированными. Это приводит к тому, что включение в модель новых переменных может вызывать снижение значимости ранее включенных переменных. И если это снижение значимости сильнее некоторого критического, то ранее включенные переменные следует удалить из модели.

Иными словами, при пошаговом методе чередуются шаги прямого и обратного отбора, добавляя и удаляя переменные, которые соответствуют критериям для включения или исключения, до тех пор, пока не будет достигнут стабильный набор переменных.

Останов алгоритма производится при достижении порога, заданного критерием Маллоуза:

C_p=\frac {SSE_k} {MSE}−n+2k+2,

где SSE_{k}=\sum\limits_{i=1}^{m}(y_{i}-\widehat{y}_{i})^{2} — (SSE — sum square error, сумма квадратов ошибки) модели, содержащей k переменных, MSE=\frac{1}{n}\sum\limits_{i=1}^{m}(y_{i}-\widehat{y}_{i})^{2} — средняя сумма квадратов ошибок регрессии для полной модели.

Очевидно, что критерий штрафует модели с большей сложностью (числом переменных). Действительно, чем больше переменных в модели, тем меньше её ошибка и, соответственно, значение в числителе. Поэтому для модели с большим числом переменных значение критерия будет меньше. Минимизация критерия позволяет найти подмножество наиболее значимых переменных. К недостаткам метода, можно отнести то, что важные переменные могут никогда не включаться в модель, а второстепенные будут включены.

Ridge (Гребневая регрессия)

В матричном виде формула для квадрата остатков регрессии может быть записана в виде:

S=(\mathbf{y}-X\mathbf{b})^{T}(\mathbf{y}-X\mathbf{b}).

Дифференцируя эту функцию по вектору параметров b и приравняв производные к нулю, получим систему уравнений в матричной форме:

(X^{T}X)\mathbf{\mathbf{b}}=X^{T}\mathbf{y}.

Решение этой системы уравнений и дает общую формулу оценок метода наименьших квадратов для модели линейной регрессии. Плохая обусловленность матрицы Σ=X^{T}X приводит к неустойчивости решения уравнения линейной регрессии. Причиной плохой обусловленности матрицы является корреляция между независимыми переменными.

Неустойчивость решения проявляется в том, что даже небольшие изменения в исходных данных приводит к значительным изменениям параметров регрессионной модели. В результате, на практически одних и тех же данных могут быть построены существенно отличающиеся модели.

Чтобы повысить устойчивость решения применяется специальный математический метод, называемые регуляризацией (а именно, регуляризация по А.Н. Тихонову). В основе идеи регуляризации лежит применение так называемого регуляризующего функционала с помощью которого на решение накладываются ограничения. При этом улучшается обусловленность матрицы Σ=X^{T}X.

В случае линейной регрессии это означает, что параметры модели оцениваются не с помощью минимизации функционала (1), а с помощью минимизации функционала, в который введён специальный элемент — параметр регуляризации, который обычно обозначается α:

\mathbf{b}^{*}=arg \underset{\boldsymbol{\mathbf{b}}}{min}\left (\sum\limits_{i=1}^{m}\left (y_{i}-\sum\limits_{j=1}^{n}b_{i}x_{ij} \right )^{2}+\alpha \left \| \mathbf{b} \right \|^{2} \right ).

Увеличение параметра α приводит к уменьшению нормы вектора параметров модели. Проинтерпретируем метод гребневой регрессии графически (рис. 3).

Рис. 3. Гребневая регрессия
Рис. 3. Гребневая регрессия

На рисунке показано пространство параметров модели. Критерий S — квадратичная функция относительно параметров b, поэтому кривая S=const является эллипсоидом. Регуляризирующий параметр, отличный от нуля, задает сферу в этом пространстве. Точка касания эллипсоида и сферы является решением нормального уравнения при фиксированном α. При этом касание эллипсоида в нулевой точке исключено и обнуления параметров модели не происходит. Метод улучшает устойчивость параметров регрессионной модели, но не приводит к обращению в ноль ни одного из них.

Следует отметить, что в результате корректировки оценок параметров модели при использовании гребневой регрессии они никогда не принимают нулевых значений, поэтому гребневая регрессия не является методом отбора переменных. С её помощью производится корректировка оценок параметров регрессионной модели с целью повышения её устойчивости, снижающейся из-за корреляции признаков набора данных.

Регрессия LASSO

Ещё одним методом оценивания параметров модели линейной регрессии с использованием регуляризации является метод LASSO (Least absolute shrinkage and selection operator — оператор наименьшего абсолютного сокращения и выбора). В отличие от гребневой регрессии оценки параметров, которые даёт регрессия LASSO, могут принимать нулевые значения. Таким образом, данный метод можно рассматривать и как регуляризацию с целью повышения точности, и как процедуру отбора переменных.

Метод LASSO использует ограничение на сумму абсолютных значений параметров модели. Рассматривается сумма модулей параметров модели:

T(\mathbf{b})=\sum\limits_{j=1}^{n}\left | b_{j} \right |.

Параметры регрессии выбираются из условия минимизации критерия (1) при ограничении T(\mathbf{b})\leq t, где t — параметр регуляризации.

При больших t решение совпадает с решением, полученным методом наименьших квадратов. Чем меньше t, тем больше коэффициентов регрессии принимают нулевое значение.

Графическая интерпретация метода LASSO представлена на рис. 4.

Рис. 4. Регрессия LASSO
Рис. 4. Регрессия LASSO

Эллипсоид, как и в случае гребневой регрессии (рис. 4) образован точками, в которых сумма квадратов остатков регрессии, минимизируемая в процессе решения, постоянна. Параметр t, отличный от нуля, задает многомерный октаэдр. Точка касания эллипсоида и октаэдра является решением стандартного уравнения регрессии при фиксированном t. При касании эллипсоида и ребра октаэдра происходит обнуление коэффициента.

Регрессия «Эластичная сеть»

В рассмотренных выше методах регуляризации регрессионной модели (гребневая и LASSO) используется единственный регуляризатор. Метод «Эластичная сеть» комбинирует обе эти техники, что позволяет преодолеть присущие им недостатки (рис. 5).

Рис. 5. Регрессия «Эластичная сеть»
Рис. 5. Регрессия «Эластичная сеть»

Например, если в наборе данных присутствует большое число признаков и малое число наблюдений, то метод LASSO может включать в модель «лишние» переменные. И, наоборот, если переменные модели сильно коррелированы, то LASSO выбирает только одну переменную.

Метод эластичной сети использует два регуляризующих члена:

\mathbf{b}^{*}=arg \underset{\boldsymbol{\mathbf{b}}}{min}\left (\sum\limits_{i=1}^{m}\left (y_{i}-\sum\limits_{j=1}^{n}b_{i}x_{ij} \right )^{2}+\alpha_{1} \left \| {\mathbf{b}} \right \|^{2} +\alpha _{2}\left \| \mathbf{b}\right \| \right ).

Квадратичный член делает целевую функцию более выпуклой и имеющей ярко выраженный минимум. Метод эластичной сети содержит два шага. Сначала фиксируется значение первого регуляризующего члена, т.е. ищутся оценки коэффициентов для гребневой регрессии. А затем производится их сокращение с помощью LASSO.

Пример использования методов отбора

Рассмотрим пример работы методов отбора переменных на реальных данных о заёмщике банка. Используемые признаки представлены таблице 1.

Таблица 1. Описание набора данных о заёмщике

ПризнакОбозначениеТип
Количество просрочекyЗависимая переменная
Стаж на последнем месте работыx_1Независимая переменная
Срок кредитаx_2Независимая переменная
Сумма кредитаx_3Независимая переменная

Данные о 10 заёмщиках по описанным в таблице 1 признакам, представлены в таблице 2.

Таблица 2. Исходные данные для модели линейной регрессии

ID заёмщикаКол-во просрочек (y)Стаж, лет (x_1)Срок кредита, мес. (x_2)Сумма кредита, руб (x_3)
107.512170 000
204.512120 000
306.51285 000
412.512160 000
513.524105 000
606.51290 000
732.02480 000
823.524395 000
926.036150 000
1042.06070 000

Метод прямого отбора

Начинаем с пустой модели. Первым признаком, который будет выбран в качестве переменной регрессионной модели, будет тот, который сильнее коррелирован с независимой переменной. Рассмотрим таблицу 3, в которой для каждой независимой переменной представлен коэффициент корреляции в зависимой.

Таблица 3. Корреляция между независимой переменной и зависимыми

Независимая переменнаяКоэффициент корреляции
x_1-0.721
x_20.871
x_30.018

Из таблицы 3 несложно увидеть, что наибольшая линейная зависимость наблюдается между независимой переменной и переменной x_2, т.е. между количеством просрочек и сроком кредита. При этом корреляция положительная, т.е. с ростом срока кредита число просрочек растёт. Поэтому первой переменной, которая будет включена в модель будет именно x_2.

Рассчитаем регрессионные оценки для модели, содержащей единственную переменную.

Сумма квадратов остатков для модели с единственной независимой переменной x_2 будет S(x_{2})=4.38. Если добавить в модель переменную x_1, то S(x_{2},x_{1})=2.07. Если добавить в модель переменную x_3, то S(x_{2},x_{3})=4.13.

Рассчитаем значения критерия Фишера для модели, включающей переменные x_2 и x_1:

S(x_{2},x_{1})=\frac{4.38-2.07}{2.07}\cdot \frac{10-2}{2-1}=1.1\cdot 8=8.8.

Зададимся уровнем значимой вероятности p=0.05. Это означает, что вероятность ошибочного отклонения гипотезы о значимости новой переменной не превышает 5%.

Далее нам необходимо воспользоваться таблицами критических значений распределения Фишера. Фрагмент такой таблицы представлен в таблице 4.

Таблица 4. Критические значения распределения Фишера

{k_1k_2}123456
1161.45199.50215.72224.57230.17233.97
218.5119.0019.1619.2519.3019.33
310.139.559.289.129.018.94
47.716.946.596.396.266.16
56.615.795.415.195.054.95
65.995.144.764.534.394.28
75.594.744.354.123.973.87
85.324.464.073.843.693.58
95.124.263.863.633.483.37
104.964.103.713.483.333.22

Строки и столбцы таблицы образованы числами степеней свободы, которых у распределения Фишера два (в таблице они обозначены как k_1 и k_2). При этом k_2=n−2=8, где n — число наблюдений в наборе данных, на котором строится модель, а k_1=m−1=1, где m — число свободных (независимых) переменных модели после добавления новой переменной.

На пересечении столбца для k_1=1 и строки для k_2=8 находим в таблице 4 критическое значение 5.32 (выделено красным цветом). Если рассчитанное значение критерия выше критического, то гипотезу о том, что новая переменная не увеличивает значимо точность модели должно быть отвергнуто. При этом вероятность обратного не превышает 5%. Поскольку рассчитанное значения F-критерия превышает критическое, можно сделать вывод о значимом улучшении качества модели при добавлении в неё переменной x_1.

Проведём аналогичную проверку для переменной x_3:

S(x_{2},x_{3})=\frac{4.38-4.13}{4.13}\cdot \frac{10-2}{2-1}=0.06\cdot 8=0.48.

Данное значение меньше критического значения F-распределения, что позволяет отклонить гипотезу о значимости улучшения модели при добавлении в неё переменной x_3.

Таким образом, мы получили, что из двух переменных-кандидатов на включение в модель x_1 и x_3, только первая из них обеспечивает значимое улучшение качества модели и может быть включена в модель.

Метод обратного исключения

Начинаем с полной модели, которая содержит все признаки, доступные в наборе данных. Требуется произвести проверку, которая позволит определить нельзя ли исключить из модели какие-то переменные без значимого ухудшения её качества. Для этого найдём переменную, с которой связано минимальным значением F-критерия, найденного при условии, что остальные переменные включены в модель.

ПеременнаяF
x_1 (Стаж)7.92
x_2 (Срок кредита)24.36
x_3 (Сумма)0.47

Из таблицы видно, что первым кандидатом на исключение является переменная x_3. По таблице F-распределения определим, что для k_1=10−3=7 и k_2=3−2=1 критическое значение F_{кр}=5.59. Значение F-критерия для переменной x_3 меньше критического, что подтверждает предположение о низкой значимости переменной и приводит к выводу о целесообразности её исключения из модели.

Проведём аналогичные действия для оставшихся переменных, учитывая, что F_{кр}=5.32

ПеременнаяF
x_1 (Стаж)8.87
x_2 (Срок кредита)27.05

Таким образом, значение F-критерия для остальных переменных превышает критическое, что позволяет сделать вывод о нецелесообразности их исключения из модели. При этом связанное с переменной x_2 значение F-критерия значительно превышает значение для x_1. Это говорит о том, что значимость переменной x_2 с точки зрения повышения точности модели, существенно выше, чем x_1, что делает её исключение наименее целесообразным.

Таким образом, порядок кандидатов на исключение следующий: x_3x_1x_2, что согласуется с результатами метода прямого отбора, полученными выше.

Пошаговый отбор

  1. Осуществляем прямой ход процедуры пошагового отбора, т.е. первый шаг прямого отбора. Как показано выше, его результатом является включение в модель переменной x_2. Поскольку на данном шаге регрессионная модель не содержит других переменных, обратный ход процедуры пошагового отбора не выполняется.
  2. Рассматриваем следующую переменную-кандидата на включение в модель. Это будет переменная x_1, значимость которой была показана при рассмотрении метода прямого включения. После включения в модель новой переменной, переменная включенная ранее может потерять свою значимость и её использование в модели теряет смысл. Выяснить, потеряла ли переменная x_2 значимость «на фоне» x_1 и предстоит на фазе обратного хода алгоритма отбора.
  3. Для проверки целесообразности оставления переменной x_2 на обратном ходе, нужно оценить значимость увеличения суммы квадратов остатков регрессии при её исключении. Для этого определим соответствующее значение F-критерия.
ПеременнаяS
x_{2}\setminus x_{1}2.07
x_18.68

F=\frac{8.68-2.07}{8.68}\cdot \frac{10-2}{2-1}=6.1

Данное значение превышает соответствующее критическое значение F-распределения F_{кр}=5.32, поэтому можно считать что исключение переменной x_2 на обратном ходе алгоритма значимо ухудшает точность модели и, следовательно, нецелесообразно.

Поскольку переменная x_3 в прямом включении не смогла показать значимость, достаточную для включения в модель, то использовать её в процедуре пошагового отбора также не целесообразно и поэтому она завершает свою работу.

Заключение

В статье рассмотрены методы отбора переменных, наиболее широко применяемые в статистических моделях линейной регрессии. Однако эта проблема актуальна и для других задач и типов моделей анализа данных — кластеризацииклассификации, прогнозирования и т.д. Во всех случаях включение в модель избыточных и незначимых переменных приводит к возрастанию сложности модели без адекватного увеличения её качества (а иногда приводит и к его ухудшению).

Поэтому отбор переменных можно рассматривать как часть более общей задачи снижения размерности (dimensionality reduction) пространства признаков. Она позволяет не только отобрать наиболее значимые переменные, но и обойти «проклятие размерности». Помимо отбора признаков, задача снижения размерности включает проецирование признаков, где производится попытка выразить информацию, содержащуюся в наборе исходных признаков с помощью меньшего числа новых переменных, представляющих линейные комбинации исходных. Сюда входят: факторный анализ и метод главных компонент, линейный и обобщённый дискриминантный анализ, корреляционный анализ и др.

Таким образом, технологии отбора переменных для аналитических моделей не ограничиваются описанными в данной статье, и могут применяться не только в рамках статистики, но и в машинном обучении. Важно лишь правильно выбрать метод, адекватный решаемой задаче, корректно его применить и проинтерпретировать результаты.

Скачать бесплатную версию Loginom Community Edition

Другие материалы по теме:

 5 преимуществ low-code подхода к аналитике

 Деревья решений: общие принципы

Орешков Вячеслав
Рязанский государственный радиотехнический университет, Доцент кафедры САПР ВС
#loginom

Смотрите также