Применение логистической регрессии в медицине и скоринге

29 января 2020
0 комментариев

При помощи логистической регрессии можно тестировать линейную зависимость между зависимой и независимой переменными. Преимущество логистической регрессии заключается в том, что данная модель является наглядной, а использование ROC-анализа позволяет сравнивать модели и подбирать оптимальный порог отсечения. Материал показывает, как это делается в медицине и скоринге.

Введение

В предыдущей статье цикла «Логистическая регрессия и ROC-анализ — математический аппарат» был рассмотрен математический аппарат логистической регрессии и ROC-анализа. Этот материал посвещен практическим аспектам применения данных инструментов. Рассмотрим более подробно на двух областях — диагностика заболеваний и оценка кредитоспособности физических лиц.

Пример из медицины

Первый пример, на котором мы остановимся, будет диагностика диабета (набор данных взят из UCI machine learning repository). Обучающая выборка содержит 768 записей со следующими полями:

  1. Число случаев беременности;
  2. Концентрация глюкозы;
  3. Артериальное диастолическое давление, мм. рт. ст.;
  4. Толщина кожной складки трехглавой мышцы, мм.;
  5. 2-х часовой сывороточный инсулин;
  6. Индекс массы тела;
  7. Числовой параметр наследственности диабета;
  8. Возраст, лет;
  9. Зависимая переменная (1 — наличие заболевания, 0 — отсутствие).

Распределение зависимой переменной следующее: 500 случаев отсутствия заболевания, 268 — его наличие.

Рассчитанные коэффициенты логистической регрессии приведены в таблице.

Независимая переменнаяКоэффициент
Число случаев беременности0,1232
Концентрация глюкозы0,0352
Артериальное диастолическое давление, мм. рт. ст.-0,0133
Толщина кожной складки трехглавой мышцы, мм.0,0006
2-х часовой сывороточный инсулин-0,0012
Индекс массы тела0,0897
Числовой параметр наследственности диабета0,9452
Возраст, лет0,0149
Константа-8,4047

Значение логарифмического правдоподобия -2*\text{Likehood} равно 723,45. На рис. 1 изображена ROC-кривая. Предсказательную способность модели можно охарактеризовать как очень хорошую.

Рис. 1 — ROC-кривая для диагностического теста на диабет

Рассмотрим фрагмент массива точек «Чувствительность-Специфичность», где:

  • Se — чувствительность, доля истинно положительных случаев;
  • Sp — специфичность, доля истинно отрицательных случаев;
  • Abs(Se-Sp) — модуль |Se-Sp|.
ПорогSe, %Sp, %Se+SpAbs(Se-Sp)
...............
0,2584,365,0149,319,3
0,2683,665,6149,218,0
0,2783,267,4150,615,8
...............
0,3178,073,0151,05,0
0,3276,175,0151,11,1
0,3375,475,6151,00,2
0,3475,076,8151,81,8
0,3574,377,8152,13,5
0,3672,079,2151,27,2
0,3770,980,2151,19,3
0,3869,480,8150,211,4
0,3969,381,2150,511,9
0,4067,282,0149,214,8
...............
0,4958,688,8147,430,2
0,5058,289,0147,230,8
0,5157,889,2147,031,4
...............

Как следует из таблицы, оптимальным порогом классификации, обеспечивающим максимум чувствительности и специфичности теста (или минимум ошибок I и II рода), является точка 0,35. В ней чувствительность равна 74,3%, что означает: у 74,3% пациентов с наличием диабета диагностический тест будет положителен. Специфичность равна 77,8%, следовательно, у 77,8% пациентов, у которых нет диабета, результаты теста отрицательны.

Точкой баланса, в которой чувствительность и специфичность примерно совпадают, является 0,33.

Если мы, например, выберем порог 0,25, в котором чувствительность теста очень высокая (>84%), то получим гипердиагностику пациентов. А если зафиксировать порог на уровне 0,5, то будем диагностировать только доподлинно больных (специфичность 89%). Что считать здесь оптимальным порогом? Все зависит от конкретной задачи, универсальных рецептов нет. В диагностике диабета, наверное, следует выбрать наиболее чувствительный тест: ложноположительный результат может угрожать, например, лишь дополнительным визитом к врачу, а ложноотрицательный — не выявлением опасной, но излечимой болезни.

Пример из скоринга

Технологии скоринга — автоматической оценке кредитоспособности физического лица — сегодня уделяется повышенное внимание. Логистическая регрессия является традиционным статистическим инструментом для расчета коэффициентов (баллов) скоринговой карты на основе накопленной кредитной истории. А ROC-анализ обеспечивает управление рисками в зависимости от кредитной политики и стратегии организации.

Поставим модели задачу выявления неблагонадежных потенциальных заемщиков. Но, поскольку в скоринге общепринято, что чем выше рейтинг клиента, тем выше его кредитоспособность, то будем считать положительным исходом успешное погашение займа, а отрицательным – дефолт по кредиту.

Тогда проецируя при этих условиях определения чувствительности и специфичности на скоринг, можно заключить, что скоринговая модель с высокой специфичностью соответствует консервативной кредитной политике (чаще происходит отказ в выдаче кредита), а с высокой чувствительностью – политике рискованных кредитов. В первом случае минимизируется кредитный риск, связанный с потерями ссуды и процентов и дополнительными расходами на возвращение кредита, а во втором – коммерческий риск, связанный с упущенной выгодой.

Рассмотрим пример: дана обучающая выборка – производная от кредитной истории заемщиков физических лиц. По результатам характера и результата погашений все заемщики разделены на два класса: благонадежный и неблагонадежный (зависимая переменная). Независимыми переменными являются анкетные данные заемщиков:

  1. Возраст;
  2. Пол;
  3. Семейное положение: состоит в браке (да/нет);
  4. Количество иждивенцев;
  5. Подтвержденный совокупный располагаемый доход;
  6. Опыт работы, лет;
  7. Срок проживания в регионе, лет;
  8. Рыночная стоимость недвижимости в собственности, тыс.долл.;
  9. Ежемесячный платеж по кредиту, руб.;
  10. Зависимая переменная (1 — благонадежный, 0 — неблагонадежный заемщик).

Распределение зависимой переменной следующее: 492 благонадежных заемщика из 999.

Рассчитанные коэффициенты логистической регрессии приведены в таблице.

Независимая переменнаяКоэффициент
Возраст-0,0260
Пол0,6694
Семейное положение: состоит в браке (да/нет)-0,2408
Количество иждивенцев-1,8741
Подтвержденный совокупный располагаемый доход0,0007
Опыт работы, лет0,0033
Срок проживания в регионе, лет0,0094
Рыночная стоимость недвижимости в собственности, тыс.долл.0,0109
Ежемесячный платеж по кредиту, руб.-0,0009
Константа-3,5276

На рис. 2 изображена ROC-кривая для этой скоринг-модели.

Рис.21 — ROC-кривая для скоринговой модели

Снова рассмотрим фрагмент массива точек «Чувствительность-Специфичность».

  • Se — чувствительность, доля истинно положительных случаев;
  • Sp — специфичность, доля истинно отрицательных случаев;
  • Abs(Se-Sp) — модуль |Se-Sp|.
ПорогSe, %Sp, %Se+SpAbs(Se-Sp)
...............
0,4091,386,6177,94,7
0,4191,186,8177,94,7
0,4290,487,0177,43,4
0,4390,488,2178,62,2
0,4489,888,4178,21,4
0,4588,688,6177,20,0
0,4688,089,0177,01,0
0,4788,089,3177,31,3
0,4887,689,5177,11,9
0,4987,690,1177,72,5
0,5087,090,3177,33,3
0,5186,290,5176,74,3
0,5285,890,7176,54,9
0,5385,690,9176,55,3
0,5485,491,1176,55,7
...............
0,6480,593,7174,213,2
0,6579,994,1174,014,2
0,6678,994,1173,015,2
...............

Максимум чувствительности и специфичности достигается в точке 0,43. В ней чувствительность равна 90,4%, что означает, что 90,4% благонадежных заемщика будут выявлены классификатором. Специфичность равна 88,2%, следовательно, 11,8% недобросовестных заемщиков получат одобрение в выдаче кредита (кредитный риск).

Баланс между чувствительностью и специфичностью получается в точке 0,45.

Если же в банке выбрана стратегия строгого отбора заемщиков, направленная на максимальное выявление неблагонадежных клиентов, следует отдать предпочтение более высокому порогу, который соответствует высокой специфичности, например, точке 0,65 (Sp>94%). Таким образом, при помощи логистической регрессии ROC-анализа осуществляется управление рисками в кредитовании, хотя ROC-анализ может быть применен к любой модели, в которой есть выходное непрерывное поле.

Данные, использованные в материале:

txtДиагностика диабета.txttxtЗаемщики-физические лица.txt

Литература

  1. Fawcett T. ROC Graphs: Notes and Practical Considerations for Researchers // 2004 Kluwer Academic Publishers.
  2. Zweig M.H., Campbell G. ROC Plots: A Fundamental Evaluation Tool in Clinical Medicine // Clinical Chemistry, Vol. 39, No. 4, 1993.
  3. Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC Curves // Proc. Of 23 International Conference on Machine Learning, Pittsburgh, PA, 2006.

 

Другие материалы по теме:

Логистическая регрессия и ROC-анализ — математический аппарат 

Machine learning в Loginom на примере задачи c Kaggle

#логистическая регрессия#скоринг

Смотрите также