Елена Ларина – Искусственный интеллект. Этика и право (страница 14)
D.
Базовые показатели А и В полезны для фундаментальных исследований алгоритмической справедливости и для эмпирического анализа производительности существующих систем, но они обязательно дают неоднозначные результаты из-за существования оправданных, но несовместимых определений справедливости. Тем не менее, они могут обеспечить полезную основу для понимания философских, правовых и технических вопросов с помощью предлагаемых инструментов.
Базовая линия С является одной из широко распространенных точек зрения экспертов, работающих в космосе. Это может быть уместно для политиков и юрисдикций, покупающих инструменты в соответствии с законодательными полномочиями вне их контроля, или в ситуациях, когда политические ограничения означают, что базовый уровень D неприменим. Тем не менее, мы должны подчеркнуть, что во всех обсуждениях, проведенных PAI, базовый уровень D широко рассматривался как более фундаментально правильный и подходящий как цель выработки политики и стандарт оценки для инструментов оценки риска. Поэтому законодательные органы и судебные органы должны применять базовый уровень D всякий раз, когда это возможно для них.
§ 2. Минимальные требования к ответственному использованию инструментов оценки риска в уголовном правосудии
Точность представляет производительность модели по сравнению с принятой базовой линией или предварительно определенным правильным ответом на основе доступного набора данных. Чаще всего некоторые данные, используемые для создания модели, будут зарезервированы для тестирования и настройки модели. Эти зарезервированные данные обеспечивают новые оценки, которые помогают производителям инструментов избежать «переоснащения» в процессе экспериментов.
Точность измерения включает оценку того, выполнила ли модель наилучшую возможную работу по прогнозированию на тестовых данных. Сказать, что модель предсказывает неточно, значит сказать, что она дает неправильный ответ в соответствии с данными, либо в конкретном случае, либо во многих случаях.
Поскольку точность сфокусирована на том, как инструмент работает с данными, зарезервированными из исходного набора данных, он не решает проблемы, которые могут подорвать разумность самого набора данных (обсуждается в разделе о достоверности). Действительно, поскольку точность рассчитывается относительно принятого базового уровня правильности, точность не учитывает, являются ли данные, использованные для проверки или проверки модели, неопределенными или оспариваемыми. Такие вопросы обычно принимаются во внимание при анализе достоверности. Несмотря на то, что точность часто находится в центре внимания создателей инструментов при оценке эффективности их моделей, обоснованность и предвзятость часто являются более актуальными проблемами в контексте использования таких инструментов в системе уголовного правосудия.
Узкое внимание к точности может привести к тому, что лица, принимающие решения, будут слепы к важным фактическим соображениям, связанным с использованием инструментов прогнозирования. С любой статистической моделью, и особенно той, которая используется в таком критическом контексте, как оценки рисков в области уголовного правосудия, важно установить достоверность модели или ее точность в реальном мире. То есть, если оценки риска направлены на то, чтобы измерить вероятность того, что человек может не появиться или стать объектом будущего ареста, то это должно быть в том случае, если полученные оценки фактически отражают соответствующие вероятности. В отличие от точности, валидность принимает во внимание более широкий контекст, кающийся того, как данные были собраны и какой вывод делается.
Отдельно от данных и статистических проблем инструмент также может быть недействительным, потому что инструмент на самом деле не отвечает на правильный вопрос. Поскольку валидация всегда проводится в отношении конкретного контекста использования и конкретной задачи, перед которой ставится система, валидация инструмента в одном контексте мало говорит о том, является ли этот инструмент допустимым в другом контексте. Например, оценка риска может достаточно хорошо предсказать будущие аресты применительно к отдельным лицам в досудебном контексте, но довольно плохо применительно к лицам после вынесения приговора, или она может хорошо предсказать будущий арест в одном юрисдикции, но не в другой. Точно так же разные модели, построенные на основе одних и тех же данных, созданные с использованием разных решений и допущений при моделировании, могут иметь разные уровни достоверности. Таким образом, различные виды предсказаний (например, неявка, бегство, рецидивизм, насильственный рецидивизм) в разных контекстах требуют отдельной проверки. Без такой проверки даже устоявшиеся методы могут давать ошибочные прогнозы. Другими словами, только потому, что инструмент использует данные, собранные из реального мира, не делает автоматически его выводы достоверными.
Фундаментальный философско-правовой вопрос заключается в том, допустимо ли определять свободу личности на основе данных о других в их группе. В сообществах ИИ прогнозирование отдельных лиц на основе данных на уровне групп известно как этическая ошибка. Хотя инструменты оценки риска используют данные о человеке в качестве входных данных, связь между этими входными данными и прогнозируемым результатом определяется шаблонами в обучающих данных о поведении других людей.
В контексте вынесения приговора подсудимые имеют конституционное право определять приговор на основании того, что они сделали сами, а не того, что сделали другие, имеющие сходство с ними. Эта обеспокоенность возникла, например,
Этическая ошибка особенно проблематична в системе уголовного правосудия, учитывая социальные предрассудки, которые отражаются в данных уголовного правосудия. Таким образом, вполне вероятно, что решения, принимаемые инструментами оценки риска, частично принимаются в зависимости от того, к какому защищенному классу может принадлежать физическое лицо, что вызывает серьезные опасения по поводу положения о равной защите.
В то время как существует статистическая литература о том, как решать технические проблемы, возникающие из-за этической ошибки, остается фундаментальный философский вопрос о том, допустимо ли задерживать людей на основании данных о других в их группе. По мере того, как все больше судов будут сталкиваться с вопросом, использовать ли инструменты оценки риска, этот вопрос должен быть в центре внимания и обсуждаться в качестве принципа первого порядка.
В настройках статистического прогнозирования