Том Чиверс – Предсказать всё. Как теорема Байеса объясняет наш мир (страница 4)

Шрифт

Анализ данных показал, что НИПТ-тестирование населения в целом, а не только беременных из группы высокого риска, часто дает ложноположительные результаты. «Прогностическая ценность положительного результата» (positive predictive value), то есть процентная вероятность того, что данный положительный результат окажется истинно положительным, для синдрома Дауна составила 82 %, для синдрома Патау – 49 %, для синдрома Эдвардса – всего 37 %.

Если ограничиться только группами высокого риска, то эти показатели значительно возрастают: для синдрома Эдвардса прогностическая ценность положительного результата теста достигает 84 %. Иными словами, если проводить тест на будущих матерях методом случайной выборки, то почти два из трех полученных положительных результатов будут ложными. Но если ограничиться только группами повышенного риска, то ложным окажется менее чем один результат из шести.

Это «чистый Байес». Новые данные сами по себе не могут описать всю картину. Нужно знать априорную вероятность. Это не гипотетическая и не научная задача. Если вы ждете ребенка, делаете один из таких тестов и получаете положительный результат, теорема Байеса станет центральным фактором в принятии решения о том, что делать дальше. И, как мы увидим ниже, нельзя рассчитывать, что врачи вам помогут. Они, как и все мы, склонны считать, что тест, точность которого составляет 99 %, верен в 99 % случаев.

Все это касается не только медицины. В юридической сфере есть понятие «заблуждение прокурора», которое буквально означает, что человек в своем мышлении просто не следует заветам Байеса. Представьте, что вы делаете экспертизу ДНК на месте преступления. Вы находите образец на рукоятке орудия убийства, который совпадает с ДНК человека из вашей базы данных. Совпадение ДНК довольно точное: такая точность встречается примерно один раз на три миллиона.

Значит ли это, что вероятность того, что ваш подозреваемый невиновен, составляет всего один на три миллиона? Надеюсь, сейчас вы уже понимаете, что это не так.

Вам нужно знать априорную вероятность. Есть ли какие-то особые причины считать, что этот человек – именно тот, кто вам нужен, или ваша база данных представляет собой просто случайную выборку жителей Великобритании? Если это так, то априорная вероятность того, что подозреваемый вами человек – преступник, равна одному к 65 миллионам: есть 65 миллионов британцев и только один человек, совершивший это конкретное преступление. Если бы вы сделали анализ ДНК каждого британца, то по чистой случайности получили бы около двадцати совпадений ДНК, плюс преступник. Таким образом, вероятность того, что вы вышли на правильного подозреваемого, составляет плюс-минус 5 %.

Но если бы вы заранее сузили круг подозреваемых до десяти человек – скажем, вы Эркюль Пуаро и знаете, что это один из десяти человек, запертых в загородном особняке снежной бурей, – то это было бы совсем другое дело. Ваша априорная вероятность в таком случае – 10 %. Если ДНК одного из этих десяти человек совпадет с найденным образцом, то вероятность ложноположи-тельного результата составит примерно один к 300 000[5].

И, опять же, это не какое-то крючкотворство и не копание в малозначимых мелочах. На этих цифрах строятся реальные судебные дела. В 1990 году суд признал некоего Эндрю Дина виновным в изнасиловании – частично на основании данных ДНК. Свидетель-эксперт заявил суду, что вероятность того, что ДНК принадлежит кому-то другому, составляет один к трем миллионам. Однако приговор Дину отменили (хотя на повторном процессе он был все равно признан виновным), потому что, как объяснил один статистик, два вопроса – «Насколько вероятно совпадение ДНК человека с [найденным] образцом ДНК, если он невиновен?» и «Насколько вероятно, что человек невиновен, если его ДНК совпадает с образцом?» – не одно и то же, так же как вопрос «Насколько вероятно, что некий человек является Папой Римским?» не то же самое, что и вопрос «Насколько вероятно, что Папа Римский – человек?».

Иногда ошибки возникают и в обратную сторону. На суде по делу бывшей звезды американского футбола О. Дж. Симпсона, обвиненного в убийстве своей жены Николь Браун Симпсон, обвинение утверждало, что Симпсон был склонен к физическому насилию. Защита возражала, что за условный год «бесконечно малый процент мужчин, которые бьют своих жен», потом их убивают.

Но это была ошибка, противоположная заблуждению прокурора. Годовая вероятность того, что мужчина, избивающий свою жену, убьет ее, может составлять «всего» один к 2500. Но мы спрашиваем не об этом. Мы спрашиваем, если мужчина избивает жену, и, учитывая, что жена была убита, какова вероятность, что убил ее муж?

Немецкий психолог и исследователь риска Герд Гигеренцер указал на то, что если цифра один к 2500 верна, то на каждые сто тысяч женщин, страдающих от домашнего насилия, приходится около сорока убитых. Базовый показатель убийств среди американских женщин составляет примерно пять на 100 000.

То есть априорная вероятность того, что американка, ставшая жертвой домашнего насилия, будет убита своим мужем, составляет примерно один к 2500 в год. Но нам нужно рассмотреть эту вероятность с учетом новой информации: теперь мы знаем, что именно эта женщина была убита.

Именно здесь вступает в дело байесовская математика. Если мы возьмем сто тысяч жертв домашнего насилия, то можем предположить, что за условный год 99 955 женщин убиты не будут. Но из оставшихся сорока пяти сорок убьют их мужья. Защита совершила ошибку, обратную заблуждению прокурора: она привела только априорную вероятность и проигнорировала уже имеющуюся новую информацию.

Теорема Байеса, хотя и помогает нам понять эти ошибки в рассуждениях, может рассказать и о более глубоких вещах. Слово «обратная» в предыдущем абзаце – ключевое. Часто статистика и теория вероятности говорят, насколько вероятно, что вы получите какой-то результат случайно. Если мои игральные кости – геометрически правильные по форме, три шестерки одновременно мне выпадут один раз из 216. Если меня не было на месте преступления, моя ДНК должна совпасть с найденным образцом с вероятностью один на 3 миллиона.

Зачастую, впрочем, это не то, что мы хотим знать. Если мы опасаемся, что человек, с которым мы играем в кости, – шулер, мы, наверное, захотим узнать, «если ему выпадет три шестерки, какова вероятность того, что его кубики правильные по форме?» Если чья-то ДНК совпадает с образцом, найденным на месте преступления, мы, наверное, захотим узнать, какова вероятность того, что это случайность. А это ровно противоположный вопрос.

Долгое время история вероятности сводилась к постановке первого вопроса. Но после того как в XVIII веке преподобный Томас Байес, о котором мы расскажем чуть позже, начал задавать второй вопрос, его стали называть обратной вероятностью. В этой книге вы увидите, что теорема Байеса на удивление спорна. У нее есть сторонники и враги, причем и тех, и тех гораздо больше, чем у любого сопоставимого однострочного уравнения. Вы не встретите людей, которые бы ругались в интернете из-за выражения для вычисления площади поверхности сферы или из-за формулы Эйлера.

Причина, по-моему, кроется в том, что теорема Байеса влияет на всё. Насколько вероятно, что та или иная научная гипотеза верна с учетом результатов того или иного исследования? Я могу сказать, какова вероятность, что вы увидите результаты, которые увидели бы, если бы она не была верна, но это не одно и то же. Чтобы оценить, насколько это вероятно, – а все больше ученых утверждают, что именно этим и должна заниматься статистика, – нам нужна теорема Байеса и априорные вероятности.

Более того, все решения, принимаемые в условиях неопределенности, являются байесовскими; или вернее так: теорема Байеса обеспечивает принятие идеальных решений, и степень, в которой агент подчиняется Байесу, есть мера правильности его решений. Сама логика – «Все люди смертны, Сократ – человек, следовательно, Сократ смертен», помните, наверное? – это лишь частный случай байесовских рассуждений, в которых можно использовать только вероятности, равные единице и нулю.

Похоже, мы, люди, – байесовские машины. Это верно на довольно высоком уровне: формально людям сложно разобраться в теореме Байеса, но решения, которые мы принимаем в повседневной жизни, вполне сопоставимы с теми, которые принимал бы идеальный сторонник байесовского подхода. К сожалению, это не значит, что мы в итоге во всем согласимся друг с другом: если мои представления сильно отличаются от ваших, то одни и те же данные или доказательства могут привести нас к совершенно разным выводам. Именно так мы можем прийти к глубоким, но искренним разногласиям по вопросам о климате, прививках или по любым другим вопросам, которые, казалось бы, снабжены убедительными доказательствами или данными.

На более глубоком уровне мы тоже байесианцы. Наш мозг, наше восприятие, похоже, работают, давая предсказания о поведении мира – априорные вероятности – и исправляя эти предсказания информацией от наших органов чувств: новыми данными.

Наше осознанное восприятие мира – вот наша априорная информация. Я предсказываю, следовательно, существую.

3 4 5 6 Вперед