Елена Ларина – Искусственный интеллект. Этика и право (страница 14)

Шрифт

C. Являются ли инструменты оценки риска улучшением по сравнению с текущими процессами и лицами, принимающими решения? Инструменты оценки риска могут быть сопоставлены с эффективностью процессов, учреждений и практик принятия решений людьми, существовавшими до их внедрения, или аналогичными системами в других юрисдикциях без инструментов оценки риска. Такие оценки могут быть основаны на измеримых целях (таких как лучшее прогнозирование явки в суде или рецидив) или на отсутствии предрасположенности к человеческим предубеждениям. В этом смысле инструменты оценки риска могут не достигать определенного понятия справедливости, а быть сравнительно лучше, чем статус-кво;

D. Являются ли инструменты оценки риска улучшением по сравнению с другими возможными реформами системы уголовного правосудия? Другие реформы могут быть направлены на достижение тех же целей (например, повышение общественной безопасности, снижение вреда содержания под стражей и снижение издержек и бремени судебного процесса) при более низких затратах, большей простоте реализации или без учета интересов гражданских прав.

Базовые показатели А и В полезны для фундаментальных исследований алгоритмической справедливости и для эмпирического анализа производительности существующих систем, но они обязательно дают неоднозначные результаты из-за существования оправданных, но несовместимых определений справедливости. Тем не менее, они могут обеспечить полезную основу для понимания философских, правовых и технических вопросов с помощью предлагаемых инструментов.

Базовая линия С является одной из широко распространенных точек зрения экспертов, работающих в космосе. Это может быть уместно для политиков и юрисдикций, покупающих инструменты в соответствии с законодательными полномочиями вне их контроля, или в ситуациях, когда политические ограничения означают, что базовый уровень D неприменим. Тем не менее, мы должны подчеркнуть, что во всех обсуждениях, проведенных PAI, базовый уровень D широко рассматривался как более фундаментально правильный и подходящий как цель выработки политики и стандарт оценки для инструментов оценки риска. Поэтому законодательные органы и судебные органы должны применять базовый уровень D всякий раз, когда это возможно для них.

§ 2. Минимальные требования к ответственному использованию инструментов оценки риска в уголовном правосудии

Что такое точность?

Точность представляет производительность модели по сравнению с принятой базовой линией или предварительно определенным правильным ответом на основе доступного набора данных. Чаще всего некоторые данные, используемые для создания модели, будут зарезервированы для тестирования и настройки модели. Эти зарезервированные данные обеспечивают новые оценки, которые помогают производителям инструментов избежать «переоснащения» в процессе экспериментов.

Точность измерения включает оценку того, выполнила ли модель наилучшую возможную работу по прогнозированию на тестовых данных. Сказать, что модель предсказывает неточно, значит сказать, что она дает неправильный ответ в соответствии с данными, либо в конкретном случае, либо во многих случаях.

Поскольку точность сфокусирована на том, как инструмент работает с данными, зарезервированными из исходного набора данных, он не решает проблемы, которые могут подорвать разумность самого набора данных (обсуждается в разделе о достоверности). Действительно, поскольку точность рассчитывается относительно принятого базового уровня правильности, точность не учитывает, являются ли данные, использованные для проверки или проверки модели, неопределенными или оспариваемыми. Такие вопросы обычно принимаются во внимание при анализе достоверности. Несмотря на то, что точность часто находится в центре внимания создателей инструментов при оценке эффективности их моделей, обоснованность и предвзятость часто являются более актуальными проблемами в контексте использования таких инструментов в системе уголовного правосудия.

Что такое валидность?

Узкое внимание к точности может привести к тому, что лица, принимающие решения, будут слепы к важным фактическим соображениям, связанным с использованием инструментов прогнозирования. С любой статистической моделью, и особенно той, которая используется в таком критическом контексте, как оценки рисков в области уголовного правосудия, важно установить достоверность модели или ее точность в реальном мире. То есть, если оценки риска направлены на то, чтобы измерить вероятность того, что человек может не появиться или стать объектом будущего ареста, то это должно быть в том случае, если полученные оценки фактически отражают соответствующие вероятности. В отличие от точности, валидность принимает во внимание более широкий контекст, кающийся того, как данные были собраны и какой вывод делается.

Отдельно от данных и статистических проблем инструмент также может быть недействительным, потому что инструмент на самом деле не отвечает на правильный вопрос. Поскольку валидация всегда проводится в отношении конкретного контекста использования и конкретной задачи, перед которой ставится система, валидация инструмента в одном контексте мало говорит о том, является ли этот инструмент допустимым в другом контексте. Например, оценка риска может достаточно хорошо предсказать будущие аресты применительно к отдельным лицам в досудебном контексте, но довольно плохо применительно к лицам после вынесения приговора, или она может хорошо предсказать будущий арест в одном юрисдикции, но не в другой. Точно так же разные модели, построенные на основе одних и тех же данных, созданные с использованием разных решений и допущений при моделировании, могут иметь разные уровни достоверности. Таким образом, различные виды предсказаний (например, неявка, бегство, рецидивизм, насильственный рецидивизм) в разных контекстах требуют отдельной проверки. Без такой проверки даже устоявшиеся методы могут давать ошибочные прогнозы. Другими словами, только потому, что инструмент использует данные, собранные из реального мира, не делает автоматически его выводы достоверными.

Основные проблемы с использованием данных на уровне группы для оценки отдельных лиц

Фундаментальный философско-правовой вопрос заключается в том, допустимо ли определять свободу личности на основе данных о других в их группе. В сообществах ИИ прогнозирование отдельных лиц на основе данных на уровне групп известно как этическая ошибка. Хотя инструменты оценки риска используют данные о человеке в качестве входных данных, связь между этими входными данными и прогнозируемым результатом определяется шаблонами в обучающих данных о поведении других людей.

В контексте вынесения приговора подсудимые имеют конституционное право определять приговор на основании того, что они сделали сами, а не того, что сделали другие, имеющие сходство с ними. Эта обеспокоенность возникла, например, в деле Висконсин против Лумиса, где суд запретил использование показателей риска в качестве решающего фактора при принятии решений о свободе, отметив, что «молодой преступник, безработный, имеет ранний арест на раннем возрасте и историю неудачи в надзоре. Это приведет к средней или высокой оценке по шкале риска насилия, даже если преступник никогда не совершал насильственного преступления»[7].

Этическая ошибка особенно проблематична в системе уголовного правосудия, учитывая социальные предрассудки, которые отражаются в данных уголовного правосудия. Таким образом, вполне вероятно, что решения, принимаемые инструментами оценки риска, частично принимаются в зависимости от того, к какому защищенному классу может принадлежать физическое лицо, что вызывает серьезные опасения по поводу положения о равной защите.

В то время как существует статистическая литература о том, как решать технические проблемы, возникающие из-за этической ошибки, остается фундаментальный философский вопрос о том, допустимо ли задерживать людей на основании данных о других в их группе. По мере того, как все больше судов будут сталкиваться с вопросом, использовать ли инструменты оценки риска, этот вопрос должен быть в центре внимания и обсуждаться в качестве принципа первого порядка.

Что такое «смещение»?

В настройках статистического прогнозирования «смещение» имеет несколько перекрывающихся значений. Самое простое значение состоит в том, что прогноз, сделанный модельно, ошибочен в систематическом направлении – например, он предсказывает значение, которое слишком низкое в среднем или слишком высокое в среднем для населения в целом. Однако в литературе по справедливости машинного обучения термин «смещение» используется для обозначения ситуаций, когда прогнозируемые вероятности систематически либо слишком высоки, либо слишком низки для конкретных подгрупп населения. Эти подгруппы могут быть определены переменными защищенного класса (раса, пол, возраст и т. д.). Или другими переменными, такими как социально-экономический класс. Мы будем в первую очередь использовать термин «предвзятость» в этом боле узком смысле, который соответствует повседневному использованию термина, относящегося к разным суждениям о различных группах людей.

13 14 15 16 Вперед