Повышение объяснимости моделей искусственного интеллекта

28 мая 2026

Одной из проблем моделей искусственного интеллекта является непрозрачность их работы: пользователи часто не понимают, как ИИ получает результаты и принимает решения. Это снижает доверие к таким системам. Для решения данной проблемы развивается направление «объяснимый искусственный интеллект» (XAI), направленное на создание моделей, способных объяснять логику своей работы в понятной для человека форме.

Одна из проблем практического использования моделей искусственного интеллекта (ИИ) заключается в том, что зачастую невозможно понять, почему модель сформировала определенный результат. Более того, сложно предсказать последствия управленческого решения, принятого на его основе. Это вызывает трудности не только у специалистов, использующих модель, но и у ее разработчиков.

Иными словами, модель выглядит для них как «черный ящик», на вход которого подаются некоторые данные, а на выходе получается результат их обработки. Но сам механизм преобразования данных оказывается скрытым. Поэтому специалисты, работающие с моделью, не могут объяснить, почему был получен конкретный результат, оценить, насколько он корректен и что будет, если положить его в основу решения.

Даже если модель работает правильно, такой эффект «черного ящика» негативно сказывается на процессе ее эксплуатации, поскольку вызывает недоверие к результатам, затрудняет проверку связанных с ними гипотез и приводит к разногласиям при интерпретации.

Тем не менее, не все виды моделей ИИ являются «черными ящиками». Например, модели, основанные на правилах, которые формулируются на естественном языке (деревья решений, продукционные модели и линейная регрессия). В них механизм формирования выхода прозрачен для человека, поэтому такие модели называют «белыми ящиками» или «стеклянными ящиками». Наблюдая механизм преобразования, аналитик может объяснить, как и почему из конкретных входных данных получаются определенные выходные, насколько они корректны и стоит ли им доверять.

Попытки решения проблемы «черного ящика» и повышения объяснимости ИИ-моделей привели к возникновению и развитию в технологиях ИИ направления, получившего название объяснимый искусственный интеллект (explainable artificial intelligence или XAI). Основной задачей XAI является создание технологий и методов, которые позволяли бы превратить модели «черного ящика» в модели «стеклянного ящика», или хотя бы замещать первые вторыми при решении определенных задач.

В результате использования XAI повышается прозрачность механизмов функционирования модели для пользователя, объяснимость и интерпретируемость получаемых с их помощью решений, а также степень доверия к ним. В основе технологии XAI лежат три основополагающих принципа:

прозрачность — модель считается прозрачной, если алгоритмы настройки параметров модели в процессе обучения, и алгоритмы, генерирующие выходы модели на рабочих данных, могут быть описаны и обоснованы разработчиком;
интерпретируемость — возможность понимания пользователем принципов функционирования модели и принятия решений;
объяснимость — возможность понимания пользователем, какие характеристики предметной области в наибольшей степени способствовали принятию решения в конкретной задаче (например, классификация объекта) и каким образом.

Иными словами, интерпретируемость относится к способности пользователя понимать результаты работы модели, в то время как прозрачность связана с моделируемостью (воспроизводимостью предсказаний), декомпозируемостью (интуитивные объяснения параметров) и алгоритмической объяснимостью (объяснение принципа работы алгоритмов). Все эти концепции направлены на повышение понятности и удобства использования систем ИИ. Если алгоритмы соответствуют этим принципам, они обеспечивают основу для обоснования решений, их отслеживания и проверки.

В таких областях, как финансы и здравоохранение, XAI необходим для соблюдения нормативных требований, предусматривающих «право на объяснение принимаемых решений», например, в соответствии с Законом ЕС об искусственном интеллекте. Иными словами, если заемщику отказали в выдаче кредита, и это решение было принято с помощью ИИ, то банк обязан разъяснить его логику (например, недостаточный уровень дохода, неподходящий возраст). Аналогично, если соискателю вакансии было отказано с использованием ИИ, то ему также обязаны объяснить причины отказа.

Если используется модель «черного ящика», то сформулировать такие объяснения практически невозможно, и у человека, получившего отказ, может возникнуть недоверие к принятому решению, предположение, что оно является предвзятым и дискриминационным, и было принято на основе половой, расовой или социальной принадлежности.

В качестве примера можно привести Общий регламент по защите данных (General Data Protection Regulation — GDPR) — законодательный акт Европейского Союза, регулирующий конфиденциальность и безопасность личных данных. В нем присутствуют:

право на разъяснение (статьи 12, 14 и 15 GDPR), которое касается прозрачности модели ИИ. Например, если налоговые органы принимают решение на основе модели ИИ, они должны иметь возможность объяснить налогоплательщику, как оно было принято, предоставив достаточно полную информацию, чтобы те могли предпринять действия по оспариванию решения, исправлению неточностей или требованию его отмены;
право на вмешательство человека (статья 22 GDPR) — это правовой инструмент для оспаривания решений, основанных на данных, обработанных моделями ИИ. Идея заключается в том, что налогоплательщики должны иметь право оспаривать автоматизированное решение модели ИИ и требовать его проверки человеком (обычно налоговым аудитором). При этом, налогоплательщик должен сначала узнать, как модель пришла к такому выводу (что возвращает нас к праву на объяснение).

Технологии и методы XAI

В настоящее время разработано множество подходов и методов повышения объяснимости ИИ-моделей. Ниже рассмотрим основные из них.

Самообъяснимые ИИ-модели

Наиболее очевидный подход к решению проблемы объяснимости ИИ — сразу строить модель «стеклянного ящика». То есть такую, в которую требования к объяснимости заложены изначально. Такие модели называются самообъяснимыми. Типичным примером таких моделей являются деревья решений, состоящие из простых правил вида «Если..., то...», которые формулируются на естественном языке и позволяют решать задачи классификации. Тогда, пройдя последовательность правил до конечного узла (листа), в который был распределен объект, пользователь получит исчерпывающее объяснение, почему модель отнесла его к определенному классу.

Еще одним из примеров самообъяснимой модели машинного обучения может служить линейная регрессия, любое предсказание которой лежит на линии регрессии.

Основными свойствами самообъясняемых моделей являются:

интеграция механизмов объяснимости в архитектуру на этапе разработки структуры модели и ее обучения;
понятность внутренней структуры — для лучших объясняющих свойств модель должна быть по возможности компактной и простой, что обычно входит в противоречие с требованиями точности. Например, если дерево решений оказывается очень сложным и состоящим из большого числа ветвей и правил, то его подвергают процедуре упрощения: сокращения числа правил за счет некоторого уменьшения точности;
возможность генерации объяснений одновременно с предсказанием. Например, модель кластеризации может выводить информацию, что объект был отнесен в определенный кластер, поскольку обладает свойствами, характерными для большинства объектов из него.

Следует отметить, что повышение объяснимости ML-модели — это почти всегда поиск компромисса между ее простотой и точностью. Как правило, чем сложнее модель, тем выше точность ее предсказания. Поэтому при построении самообъяснимых моделей важно найти компромисс между точностью и понятностью.

Posthoc-технологии XAI

К сожалению, не все типы ML-моделей обладают естественной самообъяснимостью в силу своей изначальной низкой интерпретируемости и структурной сложности. Типичный пример — нейронные сети. При этом постановка некоторых задач не позволяет использовать модели ИИ с высокой степенью самообъясняемости. К таким задачам относится обработка естественного языка и изображений, генеративные задачи.

В этом случае приходится сначала строить модель «черного ящика» и объяснять результаты ее работы posthoc, т.е. апостериорно, по факту их получения. Соответствующие методы еще называют «объяснения задним числом».

Таким образом, в posthoc-подходе объяснения генерируются после принятия моделью решения. При этом они делятся на глобальные и локальные.

Глобальные методы обеспечивают общее понимание поведения и процесса принятия решений моделью, и направлены на выявление закономерностей, общих тенденций и выводов, которые в целом применимы к поведению модели (например, как модель выбирает лучших кандидатов на вакансию?). Примером глобального объяснения является метод, основанный на значимости признаков. Он определяет набор признаков, которые наиболее сильно влияют на принятие решения, что помогает понять, почему данное решение было принято.

Например, в задаче кредитного скоринга наиболее значимыми характеристиками заемщика могут быть доход и возраст. Поэтому после вынесения отрицательного решения по выдаче кредита, ему может быть выдана информация, что отказ был из-за неподходящего возраста или недостаточного дохода. Получив объяснение, клиент сможет рационально искать другие пути решения своих финансовых проблем.

Локальные объяснения фокусируются на процессе принятия решений моделью ИИ для конкретного результата (например, «почему моя заявка на вакансию была отклонена?»). Вместо того чтобы предоставлять глобальное объяснение, применимое ко всей модели, локальные объяснения направлены на уточнение поведения модели в конкретном случае и достижение понимания того, почему было сделано то или иное предсказание или принято определенное решение.

Наиболее популярными методами локальных объяснений являются LIME и SHAP. LIME, что расшифровывается как «Локальные интерпретируемые объяснения, не зависящие от модели», — это метод, который создает возмущения во входных данных, создавая серию искусственных (суррогатных) выборок, изменяющих значения только части исходных атрибутов, и наблюдает за изменением выходных данных модели. На основе этого наблюдения LIME создает интерпретируемые «суррогатные» модели, помогающие объяснить эти данные. Суррогатные модели проще и понятнее, что дает пользователям понимание, как входные характеристики влияют на решение модели.

Например, LIME можно использовать для определения того, был ли заявителю одобрен кредит на основе различных характеристик, таких как доход, кредитный рейтинг и история трудоустройства. В таком сценарии LIME может показать, что модель одобрила кредит, потому что высокий кредитный рейтинг заявителя и стабильная история трудоустройства оказали наиболее значительное положительное влияние на решение. Учитывая входные и выходные данные, LIME сможет создать более простую модель, которая сможет объяснить, какие характеристики имели больший вес при оценке.

SHAP, или аддитивные объяснения Шэпли — это метод, который присваивает веса для каждого признака в модели, определяющие вклад каждого из них в предсказание для конкретного случая, учитывая все возможные комбинации признаков. Этот метод обеспечивает единую меру значимости для всех признаков и помогает объяснить решение модели на локальном уровне.

Потенциальными недостатками методов LIME, SHAP и других подходов апостериорного объяснения являются то, что при создании суррогатных данных, случайно или преднамеренно в них может быть внесена предвзятость и дискриминационность, что может привести к соответствующим некорректным объяснениям поведения модели.

Метод SHAP

SHAP (SHapley Additive exPlanations, аддитивные объяснения Шэпли) — это метод XAI, основанный на теории игр, который объясняет прогнозы моделей машинного обучения, распределяя вклад каждого признака в итоговый результат. SHAP позволяет интерпретировать как индивидуальные предсказания (локально), так и общую работу модели (глобально), обеспечивая высокую точность и корректность объяснений.

Основные элементы SHAP:

значения Шэпли (Shapley Values) — основаны на теоретико-игровых значениях Шэпли, которые показывают, насколько каждый признак увеличивает или уменьшает предсказания модели относительно среднего;
аддитивность — сумма вкладов всех признаков плюс среднее значение предсказаний модели равны фактическому предсказанию для данного обучающего примера;
универсальность — метод SHAP подходит для объяснения любых ML-моделей, включая сложные нейронные сети и ансамбли моделей;
сравнение — сравнивает текущее предсказание со средним на наборе данных;
вклад признаков — оценивает вклад каждого признака, определяя его влияние на разницу между прогнозом и средним значением.

SHAP вычисляет, как предсказание меняется при включении или исключении признака в различных комбинациях, что позволяет оценить его реальный вклад.

SHAP дает более последовательные и теоретически обоснованные результаты по сравнению с LIME, так как учитывает все возможные комбинации признаков. Однако вычисление точных значений Шэпли может быть сложным, особенно на больших моделях.

Пусть обучающий набор данных содержит $K$ признаков. Выберем из них некоторый признак $A$ и вычислим для него значение Шэпли по формуле:

$\phi(x_{A})=\sum\limits_{s\in S}^{}w_{s}\phi_{s}(x_{A})$ , (1)

где $\phi_{s}(x_{A})$ — величина, называемая предельным вкладом (marginal contributions) и определяемая как разность между предсказанием для подмножества, содержащего интересующий признак $f(s_{+x_{A}})$ , и на подмножестве без него $f(s_{-x_{A}})$ :

$\phi_{s}(x_{A})=f(s_{+x_{A}})-f(s_{-x_{A}})$ .(2)

Для расчета каждого из этих предельных вкладов требуется определить предсказанное значение для всех потенциальных комбинаций признаков.

После вычисления значения Шэпли для каждого признака $k$ , можно оценить, какое влияние он оказывает на предсказание для конкретного наблюдения $j$ . Значения Шэпли, таким образом, позволяют оценить, как каждый признак способствует отклонению конкретного предсказания от базового:

$f(j)-\mu(f(J))=\phi(x_{1})+\phi(x_{2})+...+\phi(x_{K})$ , (3)

где $f(j)$ — предсказание модели на $j$ -м наблюдении с учетом всех признаков, $\mu(f(J))$ — базовое предсказание, вычисленное при исключении всех признаков как простое среднее по всем наблюдениям.

Рассмотрим сказанное на простом примере. Пусть имеется обучающий набор данных для построения ML-модели для предсказания цен на объекты недвижимости, который содержит три признака.

№ объекта	Площадь участка, сот.	Площадь дома, кв.м.	Расстояние до остановки, км
1	10.0	65.0	0.50
2	21.0	62.2	0.60
3	39.5	53.4	0.50
4	24.7	62.3	0.69

Для краткости обозначим площадь участка $A$ , площадь дома $B$ и расстояние до остановки $C$ .

На этом наборе данных была обучена ML-модель для предсказания цены дома и требуется объяснить полученные результаты с целью понять, какие признаки влияют на результат с использованием метода SHAP. Для этого получим выходы модели для всех комбинаций входных признаков. Рассмотрим объект под номером 1. Предположим, что модель предсказала для него цену 24.2 тыс. Тогда схема работы может быть представлена диаграммой:

Этот тип диаграммы часто называют «водопад». Она представляет иерархию, где на каждом уровне расположены модели с одинаковым числом признаков и указываются значения их предсказания (например, 24.2, 23.6 и др.), которые в дальнейшем будут использоваться для вычисления значений Шэпли.

Рассчитаем предельные вклады для 1-го объекта для признака A

$\phi_{s_{1}}(A)=f(\mu(ABC))-f(\mu(BC))=24.2-23.6=0.6$ ,

$\phi_{s_{2}}(A)=f(\mu(AB))-f(\mu(B))=25.3-24.1=1.2$ ,

$\phi_{s_{3}}(A)=f(\mu(AC))-f(\mu(C))=25.6-17.2=8.4$ ,

$\phi_{s_{4}}(A)=f(\mu(A))-f(\mu(\oslash ))=24.7-22.5=2.2$ ,

На основе взвешенной суммы предельных вкладов можно рассчитать значение Шэпли для признака A для 1-го объекта. Веса определяются количеством возможных коалиций признаков и соответствуют классической формуле значений Шэпли из теории игр. Обратите внимание, что сумма весов равна 1.

$\phi(A)=\frac{1}{3}\cdot 0.6+\frac{1}{6}\cdot 1.2+\frac{1}{6}\cdot 8.4+\frac{1}{3}\cdot 2.2$

Теперь произведем аналогичные расчеты для признака $B$ :

$\phi_{s_{1}}(B)=(24.2-25.6)=-1.4$

$\phi_{s_{2}}(B)=(25.3-24.7)=0.6$

$\phi_{s_{3}}(B)=(23.6-17.2)=6.4$

$\phi_{s_{4}}(B)=(24.1-22.5)=1.6$

$\phi(B)=\frac{1}{3}\cdot( -1.4)+\frac{1}{6}\cdot 0.6+\frac{1}{6}\cdot 6.4+\frac{1}{3}\cdot 1.6$

И, наконец, для признака $C$ :

$\phi_{s_{1}}(C)=(24.2-25.3)=-1.1$

$\phi_{s_{2}}(C)=(25.6-24.7)=0.9$

$\phi_{s_{3}}(C)=(23.6-24.1)=-0.5$

$\phi_{s_{4}}(C)=(17.2-22.5)=-5.3$

$\phi(C)=\frac{1}{3}\cdot (-1.1)+\frac{1}{6}\cdot 0.9+\frac{1}{6}\cdot (-0.5)+\frac{1}{3}\cdot (-5.3)$

Теперь сведем полученные результаты в соответствии с (3):

$f(1)=f(\mu({\oslash }) )+\phi(A)+\phi(B)+\phi(C)=22.5+2.5+1.25-2.1=24.2$

Представим полученные результаты в виде диаграммы:

Можно сделать вывод, что признаки $A$ и $B$ (площадь участка и дома) вносят положительный вклад, способствуя увеличению предсказанного значения, т.е. цены дома, в то время как признак $C$ вносит отрицательный вклад, уменьшая цену. Объяснить работу модели можно так: цена тем выше, чем больше площадь дома и участка, и тем ниже, чем дальше от дома до ближайшей остановки общественного транспорта.

Метод LIME

Как было отмечено выше, еще одним популярным методом XAI является LIME (Local Interpretable Model-Agnostic Explanations — интерпретируемые модельно-независимые объяснения). Преимущество LIME заключается в его доступности и простоте, а основная идея интуитивно понятна.

С появлением LIME аналитическое сообщество получило инструмент, который можно использовать с любой моделью машинного обучения, будь то простая линейная регрессия или сложная глубокая нейронная сеть, для создания интерпретируемых объяснений ее предсказаний.

Одним из ключевых свойств LIME является модельный агностицизм (от древнегреческого агностос — «непознаваемый»), которое означает, что метод рассматривает любую ML-модель как «черный ящик», но тем не менее позволяет объяснить ее. Хотя в настоящее время область применения LIME ограничивается моделями машинного обучения с учителем и глубокого обучения, он остается одним из самых популярных методов XAI.

Целью LIME является получение объяснения для отдельного наблюдения, а не всей модели целиком. По сути, LIME аппроксимирует поведение сложной модели, обучая более простую (суррогатную), интерпретируемую модель на измененных примерах обучающего набора данных.

Метод LIME состоит из следующих шагов:

На вход алгоритма LIME подается обученная модель «черного ящика», предсказания которой требуется объяснить (объясняемая модель).
Выбирается наблюдение (на рисунке показано красной точкой), предсказание для которого требуется объяснить (оно может быть изображением, текстом или просто вектором признаков).
Генерируются случайным образом искаженные версии данного наблюдения в некоторой его области (синие точки на рисунке). Для изображения это может быть зашумливание или скрытие части пикселей, для текста — удаление или изменение части букв или слов, для обычного вектора признаков — смещение его значений на случайную величину.
Полученное множество искаженных наблюдений подвергается взвешиванию в зависимости от близости к объясняемому наблюдению (представлено на рисунке увеличенным размером точек).
Для сгенерированных взвешенных наблюдений делаются предсказания на модели «черного ящика».
Выбирается тип более простой, объясняющей модели.
Производится обучение объясняющей модели.

Преимуществом метода LIME является универсальность: он работает с изображениями, текстом и табличными данными.

К недостаткам можно отнести:

локальность — объясняет только один конкретный случай, а не всю модель;
неустойчивость — даже небольшие изменения в данных могут привести к значительным изменениям в объяснениях;
субъективность — неоднозначность выбора типа суррогатной модели.

Риски, связанные с XAI

Внедрение XAI потенциально может способствовать улучшению понимания результатов работы моделей ИИ и повышению доверия к решениям, принимаемым с их помощью. Однако с ним могут быть связаны определенные риски как для разработчиков и эксплуатантов ИИ-моделей, так и тех людей, на которых влияют принятые решения. Рассмотрим основные из них.

Неправильная интерпретация. В зависимости от способа реализации, XAI может приводить к объяснениям, которые слишком сложны или технологичны для понимания целевой аудиторией, или, напротив, чрезмерно упрощены до того, что не отражают всей сложности моделей ИИ. В любом случае это может привести к неправильной интерпретации результатов со стороны отдельных лиц. Информация, касающаяся работы ИИ-модели, должна предоставляться заинтересованным лицам в краткой, прозрачной, понятной и легкодоступной форме, используя ясный и простой язык, избегая профессионального жаргона и технических терминов.

Чтобы снизить риск неверного толкования, организациям следует сначала определить различные заинтересованные стороны, которым они хотят предоставить объяснения и определить целевые аудитории. Затем для каждой аудитории уровень детализации объяснений следует скорректировать. Процесс объяснения может быть облегчен путем использования удобных пользовательских интерфейсов с графическими представлениями, но не должен приводить к чрезмерному упрощению описания ИИ-моделей и механизмов их работы. Тщательная проверка и тестирование методов XAI необходимы для того, чтобы объяснения точно отражали поведение модели, а пользователи не были введены в заблуждение неполными или неточными данными.

Потенциальная недобросовестная эксплуатация систем ИИ. Организациям необходимо внедрять соответствующие технические и организационные меры для обеспечения уровня безопасности, соответствующего рискам для отдельных лиц, включая конфиденциальность. В контексте XAI это означает предотвращение риска раскрытия персональных данных или информации, предоставленной XAI, которые могут быть использованы для недобросовестного использования системы ИИ и потенциально негативно повлиять на отдельных лиц.

Раскрытие коммерческой тайны. Применение XAI поднимает вопрос о потенциальном риске потери конкурентоспособности бизнеса для поставщика модели ИИ из-за раскрытия конфиденциальной информации или важных бизнес-стратегий, связанных с ними, в процессе формирования объяснений.

Чрезмерная зависимость от системы искусственного интеллекта. Объяснения могут повысить вероятность того, что люди будут «слепо» принимать рекомендации ИИ (это известно как предвзятость автоматизации) независимо от их правильности. Участие человека действительно является необходимым компонентом его успешного взаимодействия с ИИ, особенно там, где цена ошибки высока, например, в сфере здравоохранения.

Для решения проблемы чрезмерной зависимости от ИИ организациям следует активно задействовать человека и человеческий контроль при принятии решений, имеющих значительные последствия, особенно в части риска физического или экономического вреда, а также нарушения прав и свобод отдельных лиц и групп. Необходимо четкое информирование об ограничениях ИИ, чтобы технологический прогресс трансформировался в ответственные и социально приемлемые решения. Людей, затронутых использованием систем ИИ, следует поощрять к обращению за помощью к человеку в случае необходимости и обеспечить им простой и оперативный доступ к поддержке со стороны специалистов.

Человеческий фактор. Независимо от подхода к объяснению в ИИ-моделях, важно учитывать человеческий фактор, поскольку объяснения в конечном итоге должны быть понятными и значимыми для людей. Люди воспринимают и обрабатывают информацию по-разному, в зависимости от многих факторов, среди которых следует выделить:

контрафактуальность (counterfactuality) — люди предпочитают объяснения, которые акцентируют внимание на различиях, альтернативах или ограничениях, а не на прямых причинно-следственных связях. Помимо желания узнать «Почему?», люди склонны спрашивать: «Почему произошло событие $P$ , а не $Q$ ?». Контрактивные объяснения упрощают сложные процессы принятия решений, подчеркивая ключевые различия между альтернативами, и предоставляя людям основу для обучения на прошлых решениях и совершенствования собственных стратегий их принятия;
избирательность — сталкиваясь со сложными объяснениями, люди могут избирательно фокусироваться на наиболее важных или релевантных аспектах, отфильтровывая детали, которые они считают менее важными. Также они предпочитают склоняться к объяснениям, которые соответствуют их существующим знаниям;
контекстуальность — каждое объяснение должно помещаться в контекст, зависящий от задачи, способностей и ожиданий пользователя;
доверие — объяснения должны вызывать доверие у людей, как с точки зрения точности и надежности ИИ-модели, так и с точки зрения корректности самих объяснений. Недоверие к модели может возникнуть из-за объяснений, которые слишком сложны, неполны или неточны.

Несмотря на перечисленные проблемы, XAI является современной технологией, позволяющей повысить эффективность работы пользователей систем ИИ за счет понимания логики принятых ими решений. Кроме того, XAI позволяет улучшить пользовательский опыт продукта или услуги, повышая уверенность потребителей в том, что ИИ принимает правильные решения, что, в конечном итоге, приводит к повышению их лояльности.

Другие материалы по теме:

Деградация моделей в машинном обучении

Когнитивные искажения в принятии решений

#AI