Денис Соломатин – Искусственный интеллект от А до Б (страница 2)
Объяснение результата модели – это описание того, как был получен результат модели. Таким образом, объяснения стремятся описать процесс или правила, которые были применены для достижения результата, не зависящего от контекста. Как правило, объяснения бывают подробными, техническими и могут быть причинно-следственными. Например, объяснение может быть процедурой, описывающей, как модель достигла своего результата. Таким образом, объяснения обычно больше подходят для технических специалистов, которые могут полагаться на обширные базовые знания для выполнения задач отладки.
Хотя они не обязательно являются дословными процессами сами по себе, объяснения, таким образом, ближе к дословным ментальным представлениям, чем интерпретации. В то время как интерпретация стремится придать смысл стимулу, представленному человеку-субъекту, объяснение стремится описать процесс, который породил результат. Таким образом, объяснение выходных данных алгоритма оправдано относительно реализации или технического процесса, который был использован для создания конкретного результата. В отличие от этого, интерпретация оправдана относительно функционального назначения алгоритма.
Пояснения к алгоритмам машинного обучения могут предоставить подробную информацию о том, как алгоритм выполняет известный набор требований. В отличие от этого, интерпретации оправдывают эти реализации с точки зрения функционального назначения системы. Например, целью классификатора метода опорных векторов является сопоставление точек данных с дискретными классами, задача, которая должна быть обоснована с точки зрения полезности классификации для человека, принимающего решения, например, если бы этот классификатор использовался для распределения резюме соискателей по категориям, основанным на заслугах, в процессе собеседования. Затем качество классификации будет оцениваться в соответствии с требованиями этого процесса собеседования – классификатор, который является предвзятым (например, который делает классификации на основе категорий, не основанных на заслугах, таких как возраст, раса, этническая принадлежность и т.д.) или который имеет высокий процент ошибок, будет считаться плохим классификатором, потому что он не соответствует своему функциональному назначению. В отличие от этого, объяснение того, почему было принято то или иное решение о классификации, обычно оправдано по отношению к его реализации. Например, при вопросе о том, каким образом конкретный кандидат на вакансию был классифицирован как «не отвечающий требованиям», необходимо искать объяснение в терминах деталей алгоритма, например, что алгоритм выбрал набор профилей кандидатов как «минимально приемлемый», т.е. они были опорными векторами на основе данных обучения, и что квалификация этого конкретного кандидата в целом уступают тем референтным кандидатам. Еще более подробное объяснение повлекло бы за собой изучение конкретных значений математических параметров, таких как веса регуляризации алгоритма, чтобы понять, как были объединены конкретные атрибуты и как были выбраны опорные векторы.
Как правило, объяснения и интерпретации являются различными ментальными представлениями, которые одновременно и параллельно кодируются в сознании пользователей системы. Кроме того, пользователи отличаются друг от друга степенью, в которой они хотят и могут использовать свои собственные базовые знания для интерпретации подробной технической информации. По сути, интерпретируемые системы не должны предоставлять больше деталей, чем это необходимо для принятия последовательного решения, при этом предоставляемая информация должна быть обоснована с точки зрения функционального назначения системы. В отличие от этого, объяснимые системы предоставляют детализированные механизмы, лежащие в основе того, как определенная реализация генерирует определенный результат, независимо от того, что этот результат означает для лица, принимающего решение. Объяснение стремится воспроизвести решение более детально, в то время как интерпретация стремится передать итоговый смысл.
Приведенные выше определения предполагают, что эффективность интерпретаций и объяснений может различаться у разных людей, и действительно, мы рассмотрим примеры, показывающие, что так происходит систематическим образом. То есть, аудитории для этих различных типов выходных данных, скорее всего, будут различаться, так что разработчики, которым не хватает знаний в предметной области, смогут использовать подробное механистическое объяснение, чтобы убедиться, что их проект соответствует конкретному функциональному требованию (например, определенному целевому показателю точности), но могут не понимать последствий этого требования для пользователей-людей. В отличие от этого, пользователи, которым не хватает опыта в машинном обучении, но которые обладают знаниями в предметной области, скорее всего, сочтут эти подробные механистические объяснения запутанными, предпочитая простое описание выходных данных модели в терминах конструкций, с которыми они знакомы. Наконец, разработчик со знанием предметной области часто может использовать этот объединенный опыт, чтобы осмыслить подробное механистическое объяснение с точки зрения его конечного варианта использования, тем самым гарантируя, что алгоритм выходит за рамки механических требований и наилучшим образом удовлетворяет потребности пользователя.
Распутывание объяснимости – можно ли описать механистическое описание того, как система сделала конкретный прогноз – от интерпретируемости – может ли человек извлечь смысл из выходных данных системы для конкретного случая использования – может стать основой для устойчивых и надежных стандартов для объяснимого и интерпретируемого проектирования систем машинного обучения, и должно позволить разработать стандарты, которые изолируют технические особенности проектирования от конкретной функциональности системы Требования. Это, в свою очередь, должно позволить разработчикам сегментировать процесс проектирования таким образом, чтобы системные требования могли быть определены на соответствующем уровне абстракции. Кроме того, мы ожидаем, что более точные определения этих терминов позволят в конечном итоге разработать метрики для обеспечения соответствия этим стандартам, что позволит создать согласованную политику регулирования искусственного интеллекта, которая будет способствовать инновациям и укреплению общественного доверия.
Приведём наглядный пример: заявки на аренду. Приложения машинного обучения для аренды недвижимости в последнее время привлекли негативное внимание из-за опасений по поводу потенциально дискриминационных инцидентов и потенциальных нарушений конфиденциальности данных. В этих обстоятельствах алгоритмическая интерпретируемость может способствовать прозрачности, помогая пользователям лучше понять, почему было принято то или иное решение.
Например, рассмотрим алгоритм, который рекомендует отклонить претендента на аренду. Алгоритм будет делать это определение на основе семейства математических моделей, соответствующих обучающим данным, с последующей оценкой выходных данных модели, сгенерированных из дополнительной точки данных, представляющей случай заявителя. Интерпретация рекомендации алгоритма позволит контекстуализировать точку данных, представляющую заявителя. Человек будет использовать свои базовые знания для создания этого контекста. Например, оценщик может прийти к выводу, что заявитель представляет опасность, основываясь на отсутствии у заявителя истории аренды. В отличие от этого, модель машинного обучения будет использовать комбинацию обучающих данных и модели, выбранной алгоритмом машинного обучения (включая любые связанные источники смещения). В этом случае алгоритм может связать длинную историю аренды с успехом и, следовательно, классифицировать заявителя с короткой историей, представляющим финансовый риск. Как будет рассмотрено ниже, человеческие интерпретации отличаются от алгоритмических тем, что первые гибкие, а вторые имеют тенденцию быть хрупкими. Важно отметить, что обе интерпретации оправданы относительно более высокоуровневой конструкции – «истории аренды», которая контекстуализирует решение относительно знаний предметной области. Кроме того, эти выходные данные предоставляют пользователю полезную информацию. Решение проблемы заключается не в том, чтобы изменить реализацию алгоритма, а в том, чтобы заявитель установил историю аренды. Для того, чтобы понять смысл этого вывода, заявителю не нужно иметь никакого опыта работы в AI или ML; скорее, они должны обладать достаточным опытом в предметной области, чтобы понять, почему история аренды является важным индикатором утверждения (ниже мы обсудим, как интерпретируемость может варьироваться в зависимости от опыта в предметной области).
В отличие от этого, объяснение результатов работы того же алгоритма будет начинаться с замечания о том, что заявителю было отказано, а затем пытаться ответить на вопрос о том, как было принято такое решение. Например, в пояснении может быть указано, что алгоритм был обучен с использованием классификатора логистической регрессии с определенными значениями коэффициентов. Учитывая точку данных заявителя, можно затем вставить значения в уравнение логистической регрессии, сгенерировать вероятность успеха модели для заявителя, а затем наблюдать, что она ниже порога принятия решения. Это объяснение не обязательно подчеркивает конкретную роль истории аренды, но человек-аналитик, имеющий доступ к этому уравнению и обладающий опытом для его интерпретации, может заметить, что наибольшим предельным вкладом в решение алгоритма является история аренды. Точно так же человек, которого попросят объяснить причинно-следственную причину, может дать причинно-следственное объяснение («Ваша заявка была отклонена, потому что у вас нет истории аренды. Люди без истории аренды подвергаются более высокому риску, потому что у них нет опыта своевременной оплаты аренды, и потому что у нас нет никаких доказательств их ответственности. Как правило, мы предпочитаем сдавать в аренду людям с достоверной историей платежей»). Однако, как мы обсудим ниже, люди, и особенно эксперты в предметной области, регулярно нарушают такие причинно-следственные правила при вынесении суждений. Возможно, это связано с тем, что они способны распознавать необходимые исключения с помощью образованной интуиции (однако те же самые процессы могут быть источником систематической предвзятости, если лежащая в ее основе интуиция необразованна или неприменима по иным причинам).