
Одной из проблем моделей искусственного интеллекта является непрозрачность их работы: пользователи часто не понимают, как ИИ получает результаты и принимает решения. Это снижает доверие к таким системам. Для решения данной проблемы развивается направление «объяснимый искусственный интеллект» (XAI), направленное на создание моделей, способных объяснять логику своей работы в понятной для человека форме.
Одна из проблем практического использования моделей искусственного интеллекта (ИИ) заключается в том, что зачастую невозможно понять, почему модель сформировала определенный результат. Более того, сложно предсказать последствия управленческого решения, принятого на его основе. Это вызывает трудности не только у специалистов, использующих модель, но и у ее разработчиков.
Иными словами, модель выглядит для них как «черный ящик», на вход которого подаются некоторые данные, а на выходе получается результат их обработки. Но сам механизм преобразования данных оказывается скрытым. Поэтому специалисты, работающие с моделью, не могут объяснить, почему был получен конкретный результат, оценить, насколько он корректен и что будет, если положить его в основу решения.
Даже если модель работает правильно, такой эффект «черного ящика» негативно сказывается на процессе ее эксплуатации, поскольку вызывает недоверие к результатам, затрудняет проверку связанных с ними гипотез и приводит к разногласиям при интерпретации.
Базовые принципы XAI
Тем не менее, не все виды моделей ИИ являются «черными ящиками». Например, модели, основанные на правилах, которые формулируются на естественном языке (деревья решений, продукционные модели и линейная регрессия). В них механизм формирования выхода прозрачен для человека, поэтому такие модели называют «белыми ящиками» или «стеклянными ящиками». Наблюдая механизм преобразования, аналитик может объяснить, как и почему из конкретных входных данных получаются определенные выходные, насколько они корректны и стоит ли им доверять.
Попытки решения проблемы «черного ящика» и повышения объяснимости ИИ-моделей привели к возникновению и развитию в технологиях ИИ направления, получившего название объяснимый искусственный интеллект (explainable artificial intelligence или XAI). Основной задачей XAI является создание технологий и методов, которые позволяли бы превратить модели «черного ящика» в модели «стеклянного ящика», или хотя бы замещать первые вторыми при решении определенных задач.
В результате использования XAI повышается прозрачность механизмов функционирования модели для пользователя, объяснимость и интерпретируемость получаемых с их помощью решений, а также степень доверия к ним. В основе технологии XAI лежат три основополагающих принципа:
Иными словами, интерпретируемость относится к способности пользователя понимать результаты работы модели, в то время как прозрачность связана с моделируемостью (воспроизводимостью предсказаний), декомпозируемостью (интуитивные объяснения параметров) и алгоритмической объяснимостью (объяснение принципа работы алгоритмов). Все эти концепции направлены на повышение понятности и удобства использования систем ИИ. Если алгоритмы соответствуют этим принципам, они обеспечивают основу для обоснования решений, их отслеживания и проверки.
В таких областях, как финансы и здравоохранение, XAI необходим для соблюдения нормативных требований, предусматривающих «право на объяснение принимаемых решений», например, в соответствии с Законом ЕС об искусственном интеллекте. Иными словами, если заемщику отказали в выдаче кредита, и это решение было принято с помощью ИИ, то банк обязан разъяснить его логику (например, недостаточный уровень дохода, неподходящий возраст). Аналогично, если соискателю вакансии было отказано с использованием ИИ, то ему также обязаны объяснить причины отказа.
Объяснимость решений ИИ
Если используется модель «черного ящика», то сформулировать такие объяснения практически невозможно, и у человека, получившего отказ, может возникнуть недоверие к принятому решению, предположение, что оно является предвзятым и дискриминационным, и было принято на основе половой, расовой или социальной принадлежности.
В качестве примера можно привести Общий регламент по защите данных (General Data Protection Regulation — GDPR) — законодательный акт Европейского Союза, регулирующий конфиденциальность и безопасность личных данных. В нем присутствуют:
В настоящее время разработано множество подходов и методов повышения объяснимости ИИ-моделей. Ниже рассмотрим основные из них.
Наиболее очевидный подход к решению проблемы объяснимости ИИ — сразу строить модель «стеклянного ящика». То есть такую, в которую требования к объяснимости заложены изначально. Такие модели называются самообъяснимыми. Типичным примером таких моделей являются деревья решений, состоящие из простых правил вида «Если..., то...», которые формулируются на естественном языке и позволяют решать задачи классификации. Тогда, пройдя последовательность правил до конечного узла (листа), в который был распределен объект, пользователь получит исчерпывающее объяснение, почему модель отнесла его к определенному классу.
Еще одним из примеров самообъяснимой модели машинного обучения может служить линейная регрессия, любое предсказание которой лежит на линии регрессии.
Основными свойствами самообъясняемых моделей являются:
Следует отметить, что повышение объяснимости ML-модели — это почти всегда поиск компромисса между ее простотой и точностью. Как правило, чем сложнее модель, тем выше точность ее предсказания. Поэтому при построении самообъяснимых моделей важно найти компромисс между точностью и понятностью.
К сожалению, не все типы ML-моделей обладают естественной самообъяснимостью в силу своей изначальной низкой интерпретируемости и структурной сложности. Типичный пример — нейронные сети. При этом постановка некоторых задач не позволяет использовать модели ИИ с высокой степенью самообъясняемости. К таким задачам относится обработка естественного языка и изображений, генеративные задачи.
В этом случае приходится сначала строить модель «черного ящика» и объяснять результаты ее работы posthoc, т.е. апостериорно, по факту их получения. Соответствующие методы еще называют «объяснения задним числом».
Таким образом, в posthoc-подходе объяснения генерируются после принятия моделью решения. При этом они делятся на глобальные и локальные.
Глобальные методы обеспечивают общее понимание поведения и процесса принятия решений моделью, и направлены на выявление закономерностей, общих тенденций и выводов, которые в целом применимы к поведению модели (например, как модель выбирает лучших кандидатов на вакансию?). Примером глобального объяснения является метод, основанный на значимости признаков. Он определяет набор признаков, которые наиболее сильно влияют на принятие решения, что помогает понять, почему данное решение было принято.
Например, в задаче кредитного скоринга наиболее значимыми характеристиками заемщика могут быть доход и возраст. Поэтому после вынесения отрицательного решения по выдаче кредита, ему может быть выдана информация, что отказ был из-за неподходящего возраста или недостаточного дохода. Получив объяснение, клиент сможет рационально искать другие пути решения своих финансовых проблем.
Локальные объяснения фокусируются на процессе принятия решений моделью ИИ для конкретного результата (например, «почему моя заявка на вакансию была отклонена?»). Вместо того чтобы предоставлять глобальное объяснение, применимое ко всей модели, локальные объяснения направлены на уточнение поведения модели в конкретном случае и достижение понимания того, почему было сделано то или иное предсказание или принято определенное решение.
Локальная объяснимость
Наиболее популярными методами локальных объяснений являются LIME и SHAP. LIME, что расшифровывается как «Локальные интерпретируемые объяснения, не зависящие от модели», — это метод, который создает возмущения во входных данных, создавая серию искусственных (суррогатных) выборок, изменяющих значения только части исходных атрибутов, и наблюдает за изменением выходных данных модели. На основе этого наблюдения LIME создает интерпретируемые «суррогатные» модели, помогающие объяснить эти данные. Суррогатные модели проще и понятнее, что дает пользователям понимание, как входные характеристики влияют на решение модели.
Например, LIME можно использовать для определения того, был ли заявителю одобрен кредит на основе различных характеристик, таких как доход, кредитный рейтинг и история трудоустройства. В таком сценарии LIME может показать, что модель одобрила кредит, потому что высокий кредитный рейтинг заявителя и стабильная история трудоустройства оказали наиболее значительное положительное влияние на решение. Учитывая входные и выходные данные, LIME сможет создать более простую модель, которая сможет объяснить, какие характеристики имели больший вес при оценке.
SHAP, или аддитивные объяснения Шэпли — это метод, который присваивает веса для каждого признака в модели, определяющие вклад каждого из них в предсказание для конкретного случая, учитывая все возможные комбинации признаков. Этот метод обеспечивает единую меру значимости для всех признаков и помогает объяснить решение модели на локальном уровне.
Потенциальными недостатками методов LIME, SHAP и других подходов апостериорного объяснения являются то, что при создании суррогатных данных, случайно или преднамеренно в них может быть внесена предвзятость и дискриминационность, что может привести к соответствующим некорректным объяснениям поведения модели.
SHAP (SHapley Additive exPlanations, аддитивные объяснения Шэпли) — это метод XAI, основанный на теории игр, который объясняет прогнозы моделей машинного обучения, распределяя вклад каждого признака в итоговый результат. SHAP позволяет интерпретировать как индивидуальные предсказания (локально), так и общую работу модели (глобально), обеспечивая высокую точность и корректность объяснений.
Основные элементы SHAP:
SHAP вычисляет, как предсказание меняется при включении или исключении признака в различных комбинациях, что позволяет оценить его реальный вклад.
SHAP дает более последовательные и теоретически обоснованные результаты по сравнению с LIME, так как учитывает все возможные комбинации признаков. Однако вычисление точных значений Шэпли может быть сложным, особенно на больших моделях.
Пусть обучающий набор данных содержит K признаков. Выберем из них некоторый признак A и вычислим для него значение Шэпли по формуле:
\phi(x_{A})=\sum\limits_{s\in S}^{}w_{s}\phi_{s}(x_{A}), (1)
где \phi_{s}(x_{A}) — величина, называемая предельным вкладом (marginal contributions) и определяемая как разность между предсказанием для подмножества, содержащего интересующий признак f(s_{+x_{A}}), и на подмножестве без него f(s_{-x_{A}}):
\phi_{s}(x_{A})=f(s_{+x_{A}})-f(s_{-x_{A}}).(2)
Для расчета каждого из этих предельных вкладов требуется определить предсказанное значение для всех потенциальных комбинаций признаков.
После вычисления значения Шэпли для каждого признака k, можно оценить, какое влияние он оказывает на предсказание для конкретного наблюдения j. Значения Шэпли, таким образом, позволяют оценить, как каждый признак способствует отклонению конкретного предсказания от базового:
f(j)-\mu(f(J))=\phi(x_{1})+\phi(x_{2})+...+\phi(x_{K}), (3)
где f(j)— предсказание модели на j-м наблюдении с учетом всех признаков, \mu(f(J))— базовое предсказание, вычисленное при исключении всех признаков как простое среднее по всем наблюдениям.
Рассмотрим сказанное на простом примере. Пусть имеется обучающий набор данных для построения ML-модели для предсказания цен на объекты недвижимости, который содержит три признака.
| № объекта | Площадь участка, сот. | Площадь дома, кв.м. | Расстояние до остановки, км |
|---|---|---|---|
| 1 | 10.0 | 65.0 | 0.50 |
| 2 | 21.0 | 62.2 | 0.60 |
| 3 | 39.5 | 53.4 | 0.50 |
| 4 | 24.7 | 62.3 | 0.69 |
Для краткости обозначим площадь участка A, площадь дома B и расстояние до остановки C.
На этом наборе данных была обучена ML-модель для предсказания цены дома и требуется объяснить полученные результаты с целью понять, какие признаки влияют на результат с использованием метода SHAP. Для этого получим выходы модели для всех комбинаций входных признаков. Рассмотрим объект под номером 1. Предположим, что модель предсказала для него цену 24.2 тыс. Тогда схема работы может быть представлена диаграммой:
Диаграмма работы модели
Этот тип диаграммы часто называют «водопад». Она представляет иерархию, где на каждом уровне расположены модели с одинаковым числом признаков и указываются значения их предсказания (например, 24.2, 23.6 и др.), которые в дальнейшем будут использоваться для вычисления значений Шэпли.
Рассчитаем предельные вклады для 1-го объекта для признака A
\phi_{s_{1}}(A)=f(\mu(ABC))-f(\mu(BC))=24.2-23.6=0.6,
\phi_{s_{2}}(A)=f(\mu(AB))-f(\mu(B))=25.3-24.1=1.2,
\phi_{s_{3}}(A)=f(\mu(AC))-f(\mu(C))=25.6-17.2=8.4,
\phi_{s_{4}}(A)=f(\mu(A))-f(\mu(\oslash ))=24.7-22.5=2.2,
На основе взвешенной суммы предельных вкладов можно рассчитать значение Шэпли для признака A для 1-го объекта. Веса определяются количеством возможных коалиций признаков и соответствуют классической формуле значений Шэпли из теории игр. Обратите внимание, что сумма весов равна 1.
\phi(A)=\frac{1}{3}\cdot 0.6+\frac{1}{6}\cdot 1.2+\frac{1}{6}\cdot 8.4+\frac{1}{3}\cdot 2.2
Теперь произведем аналогичные расчеты для признака B:
\phi_{s_{1}}(B)=(24.2-25.6)=-1.4
\phi_{s_{2}}(B)=(25.3-24.7)=0.6
\phi_{s_{3}}(B)=(23.6-17.2)=6.4
\phi_{s_{4}}(B)=(24.1-22.5)=1.6
\phi(B)=\frac{1}{3}\cdot( -1.4)+\frac{1}{6}\cdot 0.6+\frac{1}{6}\cdot 6.4+\frac{1}{3}\cdot 1.6
И, наконец, для признака C:
\phi_{s_{1}}(C)=(24.2-25.3)=-1.1
\phi_{s_{2}}(C)=(25.6-24.7)=0.9
\phi_{s_{3}}(C)=(23.6-24.1)=-0.5
\phi_{s_{4}}(C)=(17.2-22.5)=-5.3
\phi(C)=\frac{1}{3}\cdot (-1.1)+\frac{1}{6}\cdot 0.9+\frac{1}{6}\cdot (-0.5)+\frac{1}{3}\cdot (-5.3)
Теперь сведем полученные результаты в соответствии с (3):
f(1)=f(\mu({\oslash }) )+\phi(A)+\phi(B)+\phi(C)=22.5+2.5+1.25-2.1=24.2
Представим полученные результаты в виде диаграммы:
Диаграмма результата
Можно сделать вывод, что признаки A и B (площадь участка и дома) вносят положительный вклад, способствуя увеличению предсказанного значения, т.е. цены дома, в то время как признак C вносит отрицательный вклад, уменьшая цену. Объяснить работу модели можно так: цена тем выше, чем больше площадь дома и участка, и тем ниже, чем дальше от дома до ближайшей остановки общественного транспорта.
Как было отмечено выше, еще одним популярным методом XAI является LIME (Local Interpretable Model-Agnostic Explanations — интерпретируемые модельно-независимые объяснения). Преимущество LIME заключается в его доступности и простоте, а основная идея интуитивно понятна.
С появлением LIME аналитическое сообщество получило инструмент, который можно использовать с любой моделью машинного обучения, будь то простая линейная регрессия или сложная глубокая нейронная сеть, для создания интерпретируемых объяснений ее предсказаний.
Одним из ключевых свойств LIME является модельный агностицизм (от древнегреческого агностос — «непознаваемый»), которое означает, что метод рассматривает любую ML-модель как «черный ящик», но тем не менее позволяет объяснить ее. Хотя в настоящее время область применения LIME ограничивается моделями машинного обучения с учителем и глубокого обучения, он остается одним из самых популярных методов XAI.
Целью LIME является получение объяснения для отдельного наблюдения, а не всей модели целиком. По сути, LIME аппроксимирует поведение сложной модели, обучая более простую (суррогатную), интерпретируемую модель на измененных примерах обучающего набора данных.
Метод LIME
Метод LIME состоит из следующих шагов:
Преимуществом метода LIME является универсальность: он работает с изображениями, текстом и табличными данными.
К недостаткам можно отнести:
Внедрение XAI потенциально может способствовать улучшению понимания результатов работы моделей ИИ и повышению доверия к решениям, принимаемым с их помощью. Однако с ним могут быть связаны определенные риски как для разработчиков и эксплуатантов ИИ-моделей, так и тех людей, на которых влияют принятые решения. Рассмотрим основные из них.
Неправильная интерпретация. В зависимости от способа реализации, XAI может приводить к объяснениям, которые слишком сложны или технологичны для понимания целевой аудиторией, или, напротив, чрезмерно упрощены до того, что не отражают всей сложности моделей ИИ. В любом случае это может привести к неправильной интерпретации результатов со стороны отдельных лиц. Информация, касающаяся работы ИИ-модели, должна предоставляться заинтересованным лицам в краткой, прозрачной, понятной и легкодоступной форме, используя ясный и простой язык, избегая профессионального жаргона и технических терминов.
Чтобы снизить риск неверного толкования, организациям следует сначала определить различные заинтересованные стороны, которым они хотят предоставить объяснения и определить целевые аудитории. Затем для каждой аудитории уровень детализации объяснений следует скорректировать. Процесс объяснения может быть облегчен путем использования удобных пользовательских интерфейсов с графическими представлениями, но не должен приводить к чрезмерному упрощению описания ИИ-моделей и механизмов их работы. Тщательная проверка и тестирование методов XAI необходимы для того, чтобы объяснения точно отражали поведение модели, а пользователи не были введены в заблуждение неполными или неточными данными.
Потенциальная недобросовестная эксплуатация систем ИИ. Организациям необходимо внедрять соответствующие технические и организационные меры для обеспечения уровня безопасности, соответствующего рискам для отдельных лиц, включая конфиденциальность. В контексте XAI это означает предотвращение риска раскрытия персональных данных или информации, предоставленной XAI, которые могут быть использованы для недобросовестного использования системы ИИ и потенциально негативно повлиять на отдельных лиц.
Раскрытие коммерческой тайны. Применение XAI поднимает вопрос о потенциальном риске потери конкурентоспособности бизнеса для поставщика модели ИИ из-за раскрытия конфиденциальной информации или важных бизнес-стратегий, связанных с ними, в процессе формирования объяснений.
Чрезмерная зависимость от системы искусственного интеллекта. Объяснения могут повысить вероятность того, что люди будут «слепо» принимать рекомендации ИИ (это известно как предвзятость автоматизации) независимо от их правильности. Участие человека действительно является необходимым компонентом его успешного взаимодействия с ИИ, особенно там, где цена ошибки высока, например, в сфере здравоохранения.
Для решения проблемы чрезмерной зависимости от ИИ организациям следует активно задействовать человека и человеческий контроль при принятии решений, имеющих значительные последствия, особенно в части риска физического или экономического вреда, а также нарушения прав и свобод отдельных лиц и групп. Необходимо четкое информирование об ограничениях ИИ, чтобы технологический прогресс трансформировался в ответственные и социально приемлемые решения. Людей, затронутых использованием систем ИИ, следует поощрять к обращению за помощью к человеку в случае необходимости и обеспечить им простой и оперативный доступ к поддержке со стороны специалистов.
Человеческий фактор. Независимо от подхода к объяснению в ИИ-моделях, важно учитывать человеческий фактор, поскольку объяснения в конечном итоге должны быть понятными и значимыми для людей. Люди воспринимают и обрабатывают информацию по-разному, в зависимости от многих факторов, среди которых следует выделить:
Несмотря на перечисленные проблемы, XAI является современной технологией, позволяющей повысить эффективность работы пользователей систем ИИ за счет понимания логики принятых ими решений. Кроме того, XAI позволяет улучшить пользовательский опыт продукта или услуги, повышая уверенность потребителей в том, что ИИ принимает правильные решения, что, в конечном итоге, приводит к повышению их лояльности.
Другие материалы по теме: