При помощи логистической регрессии можно тестировать линейную зависимость между зависимой и независимой переменными. Преимущество логистической регрессии заключается в том, что данная модель является наглядной, а использование ROC-анализа позволяет сравнивать модели и подбирать оптимальный порог отсечения. Материал показывает, как это делается в медицине и скоринге.
В предыдущей статье цикла «Логистическая регрессия и ROC-анализ — математический аппарат» был рассмотрен математический аппарат логистической регрессии и ROC-анализа. Этот материал посвещен практическим аспектам применения данных инструментов. Рассмотрим более подробно на двух областях — диагностика заболеваний и оценка кредитоспособности физических лиц.
Первый пример, на котором мы остановимся, будет диагностика диабета (набор данных взят из UCI machine learning repository). Обучающая выборка содержит 768 записей со следующими полями:
Распределение зависимой переменной следующее: 500 случаев отсутствия заболевания, 268 — его наличие.
Рассчитанные коэффициенты логистической регрессии приведены в таблице.
Независимая переменная | Коэффициент |
---|---|
Число случаев беременности | 0,1232 |
Концентрация глюкозы | 0,0352 |
Артериальное диастолическое давление, мм. рт. ст. | -0,0133 |
Толщина кожной складки трехглавой мышцы, мм. | 0,0006 |
2-х часовой сывороточный инсулин | -0,0012 |
Индекс массы тела | 0,0897 |
Числовой параметр наследственности диабета | 0,9452 |
Возраст, лет | 0,0149 |
Константа | -8,4047 |
Значение логарифмического правдоподобия -2*\text{Likehood} равно 723,45. На рис. 1 изображена ROC-кривая. Предсказательную способность модели можно охарактеризовать как очень хорошую.
Рассмотрим фрагмент массива точек «Чувствительность-Специфичность», где:
Порог | Se, % | Sp, % | Se+Sp | Abs(Se-Sp) |
---|---|---|---|---|
... | ... | ... | ... | ... |
0,25 | 84,3 | 65,0 | 149,3 | 19,3 |
0,26 | 83,6 | 65,6 | 149,2 | 18,0 |
0,27 | 83,2 | 67,4 | 150,6 | 15,8 |
... | ... | ... | ... | ... |
0,31 | 78,0 | 73,0 | 151,0 | 5,0 |
0,32 | 76,1 | 75,0 | 151,1 | 1,1 |
0,33 | 75,4 | 75,6 | 151,0 | 0,2 |
0,34 | 75,0 | 76,8 | 151,8 | 1,8 |
0,35 | 74,3 | 77,8 | 152,1 | 3,5 |
0,36 | 72,0 | 79,2 | 151,2 | 7,2 |
0,37 | 70,9 | 80,2 | 151,1 | 9,3 |
0,38 | 69,4 | 80,8 | 150,2 | 11,4 |
0,39 | 69,3 | 81,2 | 150,5 | 11,9 |
0,40 | 67,2 | 82,0 | 149,2 | 14,8 |
... | ... | ... | ... | ... |
0,49 | 58,6 | 88,8 | 147,4 | 30,2 |
0,50 | 58,2 | 89,0 | 147,2 | 30,8 |
0,51 | 57,8 | 89,2 | 147,0 | 31,4 |
... | ... | ... | ... | ... |
Как следует из таблицы, оптимальным порогом классификации, обеспечивающим максимум чувствительности и специфичности теста (или минимум ошибок I и II рода), является точка 0,35. В ней чувствительность равна 74,3%, что означает: у 74,3% пациентов с наличием диабета диагностический тест будет положителен. Специфичность равна 77,8%, следовательно, у 77,8% пациентов, у которых нет диабета, результаты теста отрицательны.
Точкой баланса, в которой чувствительность и специфичность примерно совпадают, является 0,33.
Если мы, например, выберем порог 0,25, в котором чувствительность теста очень высокая (>84%), то получим гипердиагностику пациентов. А если зафиксировать порог на уровне 0,5, то будем диагностировать только доподлинно больных (специфичность 89%). Что считать здесь оптимальным порогом? Все зависит от конкретной задачи, универсальных рецептов нет. В диагностике диабета, наверное, следует выбрать наиболее чувствительный тест: ложноположительный результат может угрожать, например, лишь дополнительным визитом к врачу, а ложноотрицательный — не выявлением опасной, но излечимой болезни.
Технологии скоринга — автоматической оценке кредитоспособности физического лица — сегодня уделяется повышенное внимание. Логистическая регрессия является традиционным статистическим инструментом для расчета коэффициентов (баллов) скоринговой карты на основе накопленной кредитной истории. А ROC-анализ обеспечивает управление рисками в зависимости от кредитной политики и стратегии организации.
Поставим модели задачу выявления неблагонадежных потенциальных заемщиков. Но, поскольку в скоринге общепринято, что чем выше рейтинг клиента, тем выше его кредитоспособность, то будем считать положительным исходом успешное погашение займа, а отрицательным – дефолт по кредиту.
Тогда проецируя при этих условиях определения чувствительности и специфичности на скоринг, можно заключить, что скоринговая модель с высокой специфичностью соответствует консервативной кредитной политике (чаще происходит отказ в выдаче кредита), а с высокой чувствительностью – политике рискованных кредитов. В первом случае минимизируется кредитный риск, связанный с потерями ссуды и процентов и дополнительными расходами на возвращение кредита, а во втором – коммерческий риск, связанный с упущенной выгодой.
Рассмотрим пример: дана обучающая выборка – производная от кредитной истории заемщиков физических лиц. По результатам характера и результата погашений все заемщики разделены на два класса: благонадежный и неблагонадежный (зависимая переменная). Независимыми переменными являются анкетные данные заемщиков:
Распределение зависимой переменной следующее: 492 благонадежных заемщика из 999.
Рассчитанные коэффициенты логистической регрессии приведены в таблице.
Независимая переменная | Коэффициент |
---|---|
Возраст | -0,0260 |
Пол | 0,6694 |
Семейное положение: состоит в браке (да/нет) | -0,2408 |
Количество иждивенцев | -1,8741 |
Подтвержденный совокупный располагаемый доход | 0,0007 |
Опыт работы, лет | 0,0033 |
Срок проживания в регионе, лет | 0,0094 |
Рыночная стоимость недвижимости в собственности, тыс.долл. | 0,0109 |
Ежемесячный платеж по кредиту, руб. | -0,0009 |
Константа | -3,5276 |
На рис. 2 изображена ROC-кривая для этой скоринг-модели.
Снова рассмотрим фрагмент массива точек «Чувствительность-Специфичность».
Порог | Se, % | Sp, % | Se+Sp | Abs(Se-Sp) |
---|---|---|---|---|
... | ... | ... | ... | ... |
0,40 | 91,3 | 86,6 | 177,9 | 4,7 |
0,41 | 91,1 | 86,8 | 177,9 | 4,7 |
0,42 | 90,4 | 87,0 | 177,4 | 3,4 |
0,43 | 90,4 | 88,2 | 178,6 | 2,2 |
0,44 | 89,8 | 88,4 | 178,2 | 1,4 |
0,45 | 88,6 | 88,6 | 177,2 | 0,0 |
0,46 | 88,0 | 89,0 | 177,0 | 1,0 |
0,47 | 88,0 | 89,3 | 177,3 | 1,3 |
0,48 | 87,6 | 89,5 | 177,1 | 1,9 |
0,49 | 87,6 | 90,1 | 177,7 | 2,5 |
0,50 | 87,0 | 90,3 | 177,3 | 3,3 |
0,51 | 86,2 | 90,5 | 176,7 | 4,3 |
0,52 | 85,8 | 90,7 | 176,5 | 4,9 |
0,53 | 85,6 | 90,9 | 176,5 | 5,3 |
0,54 | 85,4 | 91,1 | 176,5 | 5,7 |
... | ... | ... | ... | ... |
0,64 | 80,5 | 93,7 | 174,2 | 13,2 |
0,65 | 79,9 | 94,1 | 174,0 | 14,2 |
0,66 | 78,9 | 94,1 | 173,0 | 15,2 |
... | ... | ... | ... | ... |
Максимум чувствительности и специфичности достигается в точке 0,43. В ней чувствительность равна 90,4%, что означает, что 90,4% благонадежных заемщика будут выявлены классификатором. Специфичность равна 88,2%, следовательно, 11,8% недобросовестных заемщиков получат одобрение в выдаче кредита (кредитный риск).
Баланс между чувствительностью и специфичностью получается в точке 0,45.
Если же в банке выбрана стратегия строгого отбора заемщиков, направленная на максимальное выявление неблагонадежных клиентов, следует отдать предпочтение более высокому порогу, который соответствует высокой специфичности, например, точке 0,65 (Sp>94%). Таким образом, при помощи логистической регрессии ROC-анализа осуществляется управление рисками в кредитовании, хотя ROC-анализ может быть применен к любой модели, в которой есть выходное непрерывное поле.
Данные, использованные в материале:
txtДиагностика диабета.txttxtЗаемщики-физические лица.txt
Другие материалы по теме:
Логистическая регрессия и ROC-анализ — математический аппарат