Денис Соломатин – Искусственный интеллект от А до Б (страница 9)
Тематические модели представляют собой семейство алгоритмов байесовского вывода, которые широко применяются к текстовым данным для поиска информации и обобщения документов. Наиболее широко применяемый из этих алгоритмов, латентное распределение Дирихле, выводит латентные «темы», которые должны содержать семантический контент, общий для нескольких документов. На практике эти темы фактически представляют собой распределение вероятностей по словам в корпусе текста, на котором обучается модель. Люди используют тематические модели, проверяя основные слова или лучшие документы по любой данной теме, а затем присваивая значение этим темам, а некоторые даже заходят так далеко, что утверждают, что тематические модели явно измеряют суть текста. Тем не менее, более поздние работы показали, что люди испытывают трудности при интерпретации некоторых выходных данных тематической модели, особенно когда они не знакомы с тем, как работает алгоритм. Несмотря на то, что специалисты по информатике разработали меры по улучшению согласованности (предположительно для повышения интерпретируемости) выходных данных тематической модели, полученные выходные данные не предоставляют явной интерпретации для пользователей-людей, а остаются списком слов с соответствующими тематическими вероятностями, которые люди должны интерпретировать. Тем не менее, тематические модели, возможно, уникальны среди алгоритмов машинного обучения тем, что их пользователи попытались явно спроектировать интерпретируемость в их структуре и выводе с помощью задач, которые оцениваются неопытными людьми, не имеющими представления о том, как работает алгоритм. Будущая работа должна быть сосредоточена на оценке этого подхода и потенциальном применении его к другим алгоритмическим парадигмам.
Как можно оценить объяснимость и интерпретируемость систем ИИ таким образом, чтобы это было психологически правдоподобно? Как мы могли бы разработать системы, удовлетворяющие этим психологическим определениям? Методы машинного обучения отражают противоречие между двумя различными подходами к оценке качества математических моделей и «рациональным» поведением в более широком смысле.
Первый подход, который Хаммонд назвал «когерентностью», подчеркивает процесс, с помощью которого достигается результат. Согласно этому подходу, результат оценивается в зависимости от того, получен ли он путем следования логическим правилам, которые исходят из общепринятых аксиом. Ранние системы ИИ, особенно системы, основанные на правилах, демонстрировали высокую степень согласованности и, как следствие, объяснимости в соответствии с психологическими определениями в этой статье. К сильным сторонам когерентного подхода можно отнести его гарантии логической полноты – если аксиомы верны, а правила соблюдаются безошибочно, то выводы обязательно должны быть правильными. Тем не менее, эти системы подвергались критике за их хрупкость в процессе принятия решений в реальном мире. На практике они могут потерпеть неудачу, если аксиомы неверны (но, по крайней мере, можно определить, как был сделан этот вывод). Например, классическая экспертная система обычно строится путем получения правил от экспертов; тем не менее, эти правила могут применяться «бездумно» (например, без соответствующих базовых знаний, таких как о времени, анатомии человека или важных исключениях, как в случае медицинской экспертной системы, основанной на правилах). В той мере, в какой эти правила верны, рекомендации системы должны быть правильными; тем не менее, процесс установления этих правил может привести к возникновению источников ошибок, которые могут сделать результаты недействительными, например, когда пациенты не раскрывают всю релевантную информацию алгоритму, поскольку они не знают, что алгоритм требует этого, или потому что они не доверяют алгоритму в использовании этой информации надлежащим образом. Действительно, традиционные системы ИИ, основанные на правилах, отличаются строгим соблюдением стенографических правил, что иногда приводит к неправильным выводам. Попытки чрезмерного упрощения моделей машинного обучения, основанные на чисто алгоритмических соображениях, в некоторых обстоятельствах могут привести к вредным предубеждениям.
Модели с белым ящиком. Как и человеческие процессы принятия решений, подчеркивающие согласованность, модели машинного обучения «белого ящика» прозрачны, и люди могут легко понять, как они работают, потому что они следуют набору прозрачных правил. Примерами моделей белого ящика являются линейные модели, которые можно легко преобразовать из входных данных в прогноз путем умножения на четко определенные значения коэффициентов. Эти модели также, по-видимому, согласуются с определением интерпретируемости Рудина. Кроме того, объяснимые методы ИИ, по-видимому, предназначены для того, чтобы сделать модели «черного ящика» более похожими на модели «белого ящика» (с риском введения потенциальных ложных корреляций).
Обычно считается, что объяснимость и точность прогнозирования должны противопоставляться друг другу. В соответствии с этой воспринимаемой дихотомией, Хаммонд определил «корреспонденционные» подходы как те, которые делают акцент на эмпирической точности. Здесь решение считается хорошим, если оно приводит к хорошему результату, независимо от того, каким образом этот результат получен. Это аналогично парадигме машинного обучения, которая делает акцент на прогнозировании, а не на объяснении. Стандартные методы машинного обучения направлены на оптимизацию определенных прогностических показателей, таких как точность, точность, полнота, F-оценка и т. д. Кроме того, может быть использовано любое количество алгоритмов независимо от того, является ли лежащая в основе алгоритма теория хорошим описанием процесса, генерирующего данные. Этот подход согласуется с определением соответствия Хаммонда, поскольку он отдает предпочтение предсказательной точности над конкретной каузальной теорией. Глубокие нейронные сети, в частности, подвергались критике, но также и превозносились, потому что они часто достигают значительной предсказательной эффективности за счет объяснимости. Таким образом, как и в машинном обучении, слабые стороны корреспонденционного подхода фундаментально связаны с низкой объяснимостью – метод может получить правильные ответы по неправильным причинам – т.е. из-за ложной корреляции – таким образом, нет уверенности в том, что будущие результаты модели будут правильными. Как утверждает Хаммонд: «научные исследования стремятся как к последовательности, так и к соответствию, но получают и то, и другое только в продвинутой, успешной работе. Большинство научных дисциплин вынуждены мириться с противоречивыми фактами и конкурирующими теориями… Но политикам гораздо труднее, чем исследователям, жить с этим напряжением, потому что от них ожидают, что они будут действовать на основе информации».
Как и подходы к принятию решений, благоприятствующие соответствию, «модели черного ящика» – это модели, внутренняя работа которых недоступна и, следовательно, непостижима для пользователей, потому что они делают акцент на точности прогнозирования, а не на объяснимости. Эти модели можно оценивать только по их прогностическим качествам, и нужно просто «верить», что они продолжат работать в реальном мире так же, как они работают на обучающих данных. Типичными примерами моделей черного ящика являются глубокие нейронные сети.
В рассуждениях Хаммонда подчеркивается, что нынешнее противоречие между объяснением и прогнозированием в машинном обучении и статистике на самом деле является давней особенностью научного метода, которая, тем не менее, может противоречить политическим и юридическим требованиям к принятию решений на основе данных. Действительно, по-видимому, существует распространенное мнение, что модели, обладающие высоким соответствием, скорее всего, будут иметь низкую когерентность, и наоборот. Тем не менее, приведенное выше обсуждение подчеркивает, что объяснения в основном связаны с предоставлением согласованных результатов, описывающих процесс, с помощью которого модель достигла заданного результата. В отличие от этого, интерпретации подчеркивают, как стимул (либо выходные данные модели, либо точка данных, либо набор данных, либо описание самой модели) контекстуализируется в более широком контексте мира и, таким образом, может быть оценен относительно критериев соответствия.
Проводя различие между интерпретацией и объяснением, мы предполагаем, что суть человеческих экспертов может рассматриваться как аналогичная «модели серого ящика», для которой полное механистическое объяснение (т.е. модель белого ящика) недоступно, но для которой также не требуется слепое доверие (т.е. модель черного ящика). Этот средний путь достигается за счет того, что эксперты сообщают суть своих процессов принятия решений, а не пытаются объяснить все детали своих структурированных ментальных моделей. В частности, эксперты могут объяснить, как то, что они делают, согласуется с ценностями пользователей в простых для понимания категорических терминах, не обязательно обладая способностью описывать точные механизмы во всех деталях. Мы предлагаем проектирование модели серого ящика в качестве цели для интерпретируемого ИИ.