Том Чиверс – Предсказать всё. Как теорема Байеса объясняет наш мир (страница 2)

Шрифт

Наши мозги тоже работают на байесовских принципах. Ими можно объяснить, почему человек подвержен оптическим иллюзиям, почему психоделические вещества вызывают галлюцинации, как работают разум и сознание.

Теорема Байеса помогает понять, почему теории заговора так трудно развенчать и почему два человека могут смотреть на одни и те же доказательства, но видеть в них совершенно разное. Почему научные данные меня убеждают в том, что вакцины безопасны и эффективны, а скептиков – нет? Потому что, как следует из теоремы Байеса, реакция людей на новую информацию зависит от убеждений, которых они уже придерживаются. Дело не в том, что антиваксеры или конспирологи – какие-то странные инопланетяне, чей мозг устроен иначе, а в том, что они ведут себя совершенно рационально, просто с учетом своих убеждений, которые у них уже есть. Теорема Байеса объясняет, как это работает.

Видимо, мы имеем дело с теорией почти всего. Практически всего. Как только ты начинаешь смотреть на мир сквозь призму теоремы Байеса, то видишь ее везде. Я намерен сделать так, чтобы и ты, читатель, увидел ее повсюду.

Обычный способ объяснить теорему Байеса – привести пример медицинских анализов, реалистичный пример с правдоподобными цифрами: вы проходите скрининг на рак груди. Вы знаете, что если у женщины рак, то маммограмма правильно выявит его в 80 % случаев (то есть чувствительность теста равна 80 %), а в остальных 20 % – пропустит. Если же рака у нее нет, то маммограмма даст результат «все чисто» в 90 % случаев (ее специфичность равна 90 %), а в 10 % случаев даст результат ложноположительный.

Вы получаете тест. Он положительный. Значит ли это, что с 90-процентной вероятностью у вас рак? Нет. Информации, которую я вам дал, просто недостаточно, чтобы оценить ваши шансы.

Вам нужно знать, насколько вероятным вы считали наличие у вас рака груди до скрининга. Один простой способ это понять – выяснить, какой процент женщин вашего возраста страдает раком груди в определенный момент времени. Допустим, эта доля составляет один процент. Чтобы разобраться на конкретном примере, представим, что скрининг прошли сто тысяч женщин. Из этих ста тысяч у одного процента, то есть у тысячи женщин действительно выявлен рак. Из этой тысячи скрининг поставит правильный диагноз восьмистам женщинам – 80 % – и даст ложноотрицательный результат двумстам. Из 99 тысяч женщин, у которых рака нет, 89 100 женщин получат правильный отрицательный результат, а 9900 – ложноположительный. Если сделать из этих цифр таблицу, получим такую картинку:

То есть теперь ясно. Вы приходите к онкологу и получаете положительную маммограмму. Из 10 700 женщин, получивших положительный результат, у 800 действительно выявлен рак. То есть вероятность того, что у вас действительно рак, если вы получили положительный результат, в этом случае составляет 800/10 700 ≈ 0,07, или около 7 %.

Но это полностью зависит от того, насколько велика вероятность, что у вас изначально мог быть рак. Если бы скрининг проходили пациентки из группы риска, скажем, пожилые женщины со случаями рака в семейном анамнезе, то, возможно, рак был бы выявлен у 10 % этих женщин. Но дальше расчеты меняются кардинально:

Теперь вместо 800 истинно положительных результатов у вас их 8000, а число ложноположительных результатов снизилось до 9000. Таким образом, вероятность того, что у вас рак, равна 8000/17 000 или около 47 %, – гораздо более тревожная оценка. Тест не изменился, изменилась лишь априорная вероятность.

Теорема Байеса подсказывает, до какой степени вам следует изменить свои изначальные представления. Но для этого нужно, чтобы они у вас уже были.

Вернемся к уравнению – если я его чуть выше уже вставил, еще в два раза продажи не уменьшатся:

По результатам расчетов получаем P(A|B): вероятность события A с учетом имеющихся данных B, то есть вероятность, что у вас рак, в случае положительного теста. Только это вас, в сущности, и волнует: «Результат получен, насколько вероятно, что у меня рак?»

Однако показатель чувствительности 80 % дает результат ровно противоположный, а именно P(B|A), то есть вероятность B при условии A; насколько вероятно, что я увижу такой результат, учитывая, что у меня рак груди?

Это может показаться несущественным, но это такая же разница, как между следующими утверждениями: «Есть только один из восьми миллиардов шансов, что отдельно взятый человек – папа Римский» и «Есть только один из восьми миллиардов шансов, что папа Римский – человек».

Чтобы разобраться в том, что мы действительно хотим узнать, нам нужно больше информации. В примере с тестом на рак нам нужно знать, насколько распространен рак груди среди населения. В медицинской терминологии такой показатель называют заболеваемостью или распространенностью заболевания (англ. prevalence), или фоновым уровнем (background rate), а в теореме Байеса – априорной вероятностью (prior probability) или априорным представлением (prior).

Для медицинских обследований априорную вероятность часто относительно легко вычислить или, по крайней мере, просто определить. Если нужно определить риск развития болезни Хантингтона, можно просмотреть диагнозы, зарегистрированные в журналах общей практики, и подсчитать, что этим заболеванием страдают примерно 12,3 человека на сто тысяч.

В других ситуациях это намного сложнее. Если вы хотите узнать, насколько вероятно, что Россия введет войска в Украину, какова априорная вероятность такого события? Сколько раз в год Россия вводила войска в Украину? Как часто одна страна вводит войска в другую страну? Как часто одна страна вводит войска на территорию другой страны, если первая сосредоточила у границы второй танки?

Возьмем другой пример. Насколько вероятно, что моя научная гипотеза верна, учитывая, что я только что провел эксперимент и увидел определенные данные? Допустим, если моя гипотеза ошибочна, я бы ожидал увидеть подобные данные только в одном случае из двадцати. Значит ли это, что я могу сказать, что гипотеза, скорее всего, верна? Нет. Зависит от того, насколько вероятной была моя гипотеза до того, как я начал эксперимент, то есть от того, какова априорная вероятность. Но как же ее определить?

И еще один пример. Какова вероятность, что тот или иной человек виновен в преступлении с учетом данных криминалистической экспертизы? Если у меня есть образцы ДНК, шанс получить которые – один на миллион, значит ли это, что вероятность того, что я ошибся в подозреваемом, составляет один на миллион? Нет. Это зависит от того, насколько вероятно, что ваш подозреваемый изначально был «правильным». Но опять же, как вообще все это можно просчитать?

До этого мы дойдем. (Есть люди, которые на этом зарабатывают.) Главное – начинать с априорной вероятности и пользоваться теоремой Байеса. В противном случае можно забрести бог знает куда.

С теоремой Байеса люди чаще всего впервые сталкиваются в медицине, так что начнем с нее.

Я уже много лет слегка одержим теоремой Байеса. Впервые я прочитал о ней в начале двухтысячных в колонке Бена Голдакра под заголовком «Псевдонаука» («Bad Science») в газете The Guardian. С тех пор теорема увлекала меня всё больше и больше. Я написал три книги, включая эту, и во всех трех она фигурирует. Есть что-то удивительное в том, насколько теорема Байеса контринтуитивна. Что значит, когда 99-процентная точность анализа – не то же самое, что 99-процентная вероятность того, что он окажется верным? Что за бред вообще? Если вникнуть в аргументацию – не очень-то сложную, – все становится понятно, но по крайней мере для меня теорема Байеса и сейчас не теряет определенного жутковатого, потустороннего флера.

За последние четыре года, с начала 2020‐го, когда ковид-19 начал свое «триумфальное шествие» по планете, она стала намного актуальнее. Еще в апреле 2020 года, когда мы сидели на первом карантине, разные люди, например Тони Блэр, призывали ввести «иммунные паспорта» – тесты на антитела, которые позволят определить, переболел человек ковидом или нет. Если переболел, ему можно было бы выходить на улицу. (Это было еще до того, как мы поняли, что можно легко заразиться несколько раз).

В то время тесты на антитела только появились. Один такой тест, только что получивший экстренную регистрацию в США, показал чувствительность и специфичность на уровне примерно 95 %.

Неплохой показатель. Но на апрель 2020 года переболели вирусом, видимо, около 3 % британцев. Это ваша априорная вероятность. Если бы с помощью этого теста вы протестировали миллион человек, можно было бы предположить, что ковидом переболели около 30 тысяч человек. Ваш тест правильно бы выявил 28 500 из них. Но в тестах 970 тысяч человек, не болевших ковидом, он бы дал ложноположительный результат у 48 500 из них.

То есть из 77 тысяч человек, которые получили бы положительный результат, в реальности переболели чуть больше трети. Это ваша апостериорная вероятность. Если бы вы протестировали все 65 миллионов британцев и выдали «иммунные паспорта» всем, кто получил положительный результат, это означало бы, что около трех миллионов человек сказали бы, что им можно идти обниматься с бабушками, чей иммунитет ослаблен, хотя это совсем не так. Вы просто не разобрались бы во всем этом, не имея хоть какого-то представления о байесовских принципах.

1 2 3 4 Вперед