Денис Соломатин – Искусственный интеллект от А до Б (страница 7)
Локальные интерпретируемые модельно-независимые объяснения, – один из ведущих алгоритмов, использующих парадигму важности локальных признаков, стремится «объяснить поведение любого классификатора или регрессора верным образом, аппроксимируя его локально с помощью интерпретируемой модели… представляя текстовые или визуальные артефакты, которые обеспечивают качественное понимание взаимосвязи между компонентами экземпляра (например, словами в тексте, пятнами на изображении) и прогнозом модели». Такой подход может помочь разработчикам понять, как изменения в отдельных признаках могут повлиять на выходные данные модели вокруг конкретного прогноза. В той степени, в которой эти выводы обобщают и основаны на значимых признаках, они могут помочь разработчикам сделать вывод о причинно-следственных механизмах модели; однако эти подходы также могут ввести в заблуждение, если они становятся подверженными ложным корреляциям. Этот классификатор, по-видимому, фокусируется на свойствах автора (например, на том факте, что он является выходцем из академического учреждения, на что указывает .edu в его адресе электронной почты) и конкретных стилометрических характеристиках (например, использование слов «иметь» и «там»), а не на словах, которые могут указывать на содержание.
При этом данный подход обращает внимание пользователей на конкретные функции, которые модель использует для создания конкретного прогноза, тем самым связывая конкретный выход с упрощенным представлением модели, которая сгенерировала этот результат. Например, классификатор, разработанный для определения разницы между волками и лайками, классифицировал конкретное изображение на основе наличия снега на заднем плане (а не на основе анатомических особенностей, которые на самом деле отличают эти два вида). Специалист по обработке и анализу данных, обладающий соответствующими знаниями в предметной области, сможет использовать эту информацию для изменения или иной отладки этой ошибочной классификации.
Таким образом, этот процесс имеет некоторое сходство с представленным выше определением объяснения, однако есть и важные отличия. Во-первых, описанный метод не предоставляет пользователю объяснение модели как таковой, а скорее предоставляет пользователям упрощенную модель, которая приближается к более сложной модели, которую пытается объяснить алгоритм. По сути, этот метод заменяет сложное, причинно-следственное описание внутренней работы модели более простым описанием другой модели, результаты которой коррелируют только с исходной моделью. Например, не предоставляя никакой информации о том, что нарисован, волк или хаски, классификатор будет делать точные прогнозы на изображениях, на фоне которых нет снега.
Авторы этого подхода утверждают, что упрощенные модели (например, регрессионные модели с небольшим числом коэффициентов) по своей сути более интерпретируемы, потому что они «обеспечивают качественное понимание между входными переменными и реакцией». Хотя эта цель в целом согласуется с определением сути в теории нечетких следов, при обучении фиксирует мнение эксперта о том, какие признаки с наибольшей вероятностью следует обобщать. Такие методы, могут помочь людям в создании этих представлений, и действительно, предварительные эксперименты, по-видимому, предполагают, что люди могут использовать эти методы для удаления признаков, которые мешают точности прогнозирования, т.е. они могут создать лучший классификатор, и что небольшая выборка людей с опытом в области науки о данных (и, в частности, знакомство с концепцией ложной корреляции) могли бы использовать ограниченные знания для получения более точных объяснений.
Другой подход исходит из предпосылки, что «лучшим объяснением простой модели является сама модель», и поэтому пытается представить сложные модели с помощью более простых моделей. Таким образом возвращая оценки важности для каждого объекта, которые аналогичны коэффициентам регрессии. Для данного прогноза оценки показывают, в какой степени любая из этих функций повлияла на этот прогноз.
Хотя и с возможностью обобщения на более крупный класс моделей машинного обучения. Эти модели являются дословными в самом конкретном смысле – они выводят набор правил (оценки важности признаков), которые могут быть применены в механическом порядке для создания постфактум описания желаемого прогноза. Однако они не связывают причинно-следственные механизмы и подвержены неизвестным ошибкам, поскольку модель применяется за пределами локальной окрестности конкретного прогноза. Отдельные люди, являющиеся субъектами исследования, такие как информированные специалисты, которые имеют желание и возможность глубоко изучить эти результаты, могут использовать свои собственные базовые знания для создания объяснения, но это не предоставляет достаточно информации, чтобы помочь этим специалистам выяснить, когда модель больше не применима. По сути, методы предоставляют пользователям только стимул, который они затем должны объяснить или интерпретировать, в то время как настоящие модели «черного ящика» даже не предоставляют этого стимула.
В то время как разные подходы стремятся объяснить сложные модели с помощью регрессионной парадигмы (т.е. линейной аддитивной функции), объяснимые нейронные сети используют более общую формулировку, основанную на «аддитивной модели индекса». Здесь алгоритм стремится вернуть функцию, описывающую, как прогнозы модели изменяются при изменении отдельных параметров (или, в последнее время, пар параметров). Эти модели могут помочь специалистам по обработке и анализу данных при соответствующем обучении понять, как изменение конкретного признака может изменить прогноз модели, хотя и с риском вывода о ложных корреляциях. Эти подходы особенно широко применяются к моделям глубоких нейронных сетей, в которых одна нейронная сеть используется для упрощенного представления другой, а затем отображается в виде таблицы, аналогичной дисперсионному анализу, показывающей основные эффекты и, в некоторых случаях, двусторонние взаимодействия.
Тем не менее, описанный подход не лишен ограничений: объяснения, которые аналитики могут сделать из применения этих инструментов, могут сами по себе основываться на ложных корреляциях или могут порождать ложную уверенность в предсказаниях моделей, выходящих за рамки непосредственной окрестности точки данных, которую модель пытается объяснить. Хуже того, эти вводящие в заблуждение объяснения могут быть сфабрикованы противниками, стремящимися извлечь выгоду из склонности людей приписывать причинно-следственную связь там, где ее нет.
Градиентно-взвешенное отображение активации классов – это метод, предназначенный для объяснения моделей компьютерного зрения, использующих архитектуры глубокого обучения (в частности, сверточные нейронные сети – в настоящее время самая современная архитектура для компьютерного зрения). В частности, метод «использует градиенты любого целевого понятия (скажем, «собака» в сети классификации или последовательности слов в сети подписей), перетекающих в конечный сверточный слой, для создания грубой карты локализации, выделяющей важные области изображения для прогнозирования понятия». Метод использует преимущества многоуровневой архитектуры для определения тех областей изображения, которые наиболее диагностически для конкретного прогноза. Например, выходные данные могут привлечь внимание пользователя к той части изображения, которая является диагностической для конкретного прогноза, который пользователь хочет объяснить. Это визуальная версия парадигмы важности признаков, где признаки представляют собой ансамбли определенных пикселей с несколькими соответствующими преимуществами и ограничениями.
Рудин подверг резкой критике методы, направленные на создание простых объяснений сложных моделей, утверждая, что они могут запутать фактическую внутреннюю работу этих моделей таким образом, что это введет в заблуждение лиц, принимающих решения, и аналитиков. Модели, которые являются локально точными, не предоставляют информации о степени этой точности или о том, является ли ее снижение плавным или внезапным. Вместо того, чтобы пытаться аппроксимировать более сложные модели более простыми, Рудин утверждает, что более простые модели следует использовать напрямую, потому что они более «интерпретируемы» (т.е. учеными данных), особенно когда ставки высоки. Обоснование этого подхода заключается в том, что специалисты по обработке и анализу данных, по крайней мере, могут понять внутреннюю работу модели.
Масштабируемые байесовские списки правил. Списки байесовских правил Скалабале являются одним из примеров метода, направленного на то, чтобы избежать усложнения модели. В отличие от описанных выше методов, которые стремятся обеспечить непрерывное представление сложных моделей, масштабируемые байесовские списки правил явно не пытаются конкурировать с классификаторами «черного ящика», такими как нейронные сети, методы опорных векторов, градиентный бустинг или случайные леса. Это полезно, когда инструменты машинного обучения используются в качестве помощи в принятии решений людям, которым необходимо понимать модель, чтобы доверять ей и принимать решения на основе данных». Таким образом, модель как правило не нацелены на достижение высокой точности прогнозирования и объяснимости; скорее, они стремятся предоставить набор упрощенных (дословно) вероятностных правил, которые могут быть использованы для разбиения данных.