реклама
Бургер менюБургер меню

Юрий Белк – Хеш-сумма Вселенной. Научные парадоксы. Том 1 (страница 9)

18

Квартира по‑прежнему держала порядок так, словно порядок мог служить алиби. На кухонном столе всё ещё лежали бумаги: протокол, схема, выписки. Но теперь рядом появилась новая стопка – распечатки из навигатора и банковские транзакции. Кира выложила их так, чтобы Андрей не мог «не заметить».

– Я выгрузила всё, что смогла, – сказала она. – Геолокацию – за четыре месяца. Банк – за полгода. Навигатор – историю маршрутов, насколько это возможно.

– Спасибо, – ответил Андрей и поймал себя на том, что «спасибо» звучит как «поздравляю» – неуместно.

Он сел. Кира осталась стоять, как обвинитель. Она хотела не анализа, а окончательного приговора миру.

– У вас есть что-то? – спросила она.

– Есть странность, – сказал Андрей. – Но она не про «подстроили» и не про «не подстроили». Она про то, как мы смотрим.

Он вставил флешку в ноутбук. Открыл таблицу: несколько десятков строк – дни, время выхода Сергея, маршруты, остановки, «точки интереса», небольшие отклонения. Рядом – агрегированные показатели: среднее время в пути, доля маршрутов через «тот» перекрёсток, частота «объездов».

Кира наклонилась ближе.

– Смотрите, – сказал Андрей. – За четыре месяца Сергей пересекал район аварии не так уж редко. В среднем – один‑два раза в неделю.

– Но он не ходил там, – отрезала Кира.

– Это «там» меняется, если менять масштаб, – тихо ответил Андрей. – Вот в чём проблема.

Он приблизил карту: на уровне района действительно казалось, что Сергей избегал этого перекрёстка. Но на уровне кварталов выходило, что он бывал рядом, заходил в аптеку в двухстах метрах, покупал кофе в киоске на параллельной улице. Он жил не в «сценариях», а в географии.

Кира нахмурилась.

– И что? Это доказывает, что его смерть случайна?

– Ничего это не доказывает, – сказал Андрей. – Это лишь снижает уникальность маршрута. Но есть другое: в вашей истории появился «навигатор‑обманщик». Вы сказали, что пробки не было, а навигатор предложил объезд. Я проверил данные пробок у стороннего поставщика по тому времени: да, крупных пробок не было. Но были мелкие замедления на участке, которые навигатор мог интерпретировать как «неоптимальный».

– Значит, навигатор не врёт.

– Подождите. Он может не врать – и это разные вещи.

Кира села напротив и наконец взяла кружку с холодным чаем. Руки дрожали совсем немного – так дрожит человек, который слишком долго держит себя.

– Тогда где «странность»? – спросила она.

Андрей открыл другую вкладку. Таблица была проще: два столбца и несколько строк.

– Вот. Я сравнил вероятность «объезда» у Сергея в зависимости от времени суток. И отдельно – вероятность «объезда» в зависимости от того, насколько он торопился.

– Откуда вы знаете, торопился ли он?

– Косвенно: по времени выхода и по тому, сколько времени он проводил в магазине и на остановках. Это не идеально, но даёт признаки.

Он повернул экран к Кире.

– В общем виде выходит так: если смотреть на все поездки вместе, кажется, что «объезд» увеличивает риск прохода через опасные перекрёстки. Но если разбить поездки на подгруппы – по времени суток или по «торопился/не торопился» – то внутри каждой подгруппы «объезд» наоборот снижает риск.

Кира молчала, потом сказала:

– Вы сейчас говорите, как мои коллеги‑юристы: «с одной стороны, с другой стороны».

– Я говорю, как статистика, – ответил Андрей. – У неё часто не две стороны. У неё бывает две правды, и обе приводят к неправильному выводу, если их смешать.

Он сделал паузу. В голове снова прозвучал голос Наблюдателя – не как внешний человек, а как внутренний комментатор, который появляется, когда Андрей устал и ему нужно, чтобы кто-то формулировал мысль вместо него.

Ты хочешь найти след руки – а находишь след агрегирования. Но разве это не рука? Разве не так и работает современная власть: через смешение групп, через статистическую пыль?

Андрей сжал пальцы на ручке.

– Есть парадокс, – сказал он Кире, – который идеально описывает то, что вы чувствуете: «всё верно по частям, но ложь в целом». Он называется парадокс Симпсона.

2) Формулировка парадокса

Парадокс Симпсона:

Тренд, который наблюдается в каждой подгруппе данных, может перевернуться, если объединить подгруппы в одну общую выборку.

То есть может случиться так, что:

– в группе A лечение кажется лучше, чем лечение B;

– в группе B новое лечение тоже кажется лучше, чем старое;

– но если объединить группы A и B, то внезапно выходит, что новое лечение хуже.

Это не «ошибка вычислений». Это особенность того, как устроены средние и доли, когда группы имеют разный размер и разные базовые риски.

3) История: медицинское исследование (как на самом деле рождается ложный вывод)

Андрей рассказал историю так, как рассказывал бы студентам, если бы когда-то преподавал.

Есть два лечения – новое и старое. Есть два типа пациентов:

– лёгкие случаи (низкий риск осложнений),

– тяжёлые случаи (высокий риск осложнений).

Врачам кажется, что новое лечение работает лучше. Но в общей статистике, опубликованной в отчёте, выходит, что новое лечение хуже.

– Это происходит, – сказал Андрей, – когда новое лечение чаще дают тяжёлым пациентам. Оно может быть лучше в каждой категории тяжести, но общая доля успеха у него будет ниже, потому что ему достаются более сложные случаи.

Кира задумалась, потом спросила:

– Вы хотите сказать, что если я вижу «навигатор привёл на смерть», это может быть результатом того, что в «объезды» попали люди, которые уже были в плохих условиях?

– Именно, – сказал Андрей. – Только вместо «тяжести болезни» у нас будут «условия поездки»: время, спешка, погода, усталость, освещённость, поток машин. И если «объезд» чаще происходит в плохих условиях, он будет выглядеть виновником, даже если он помогает.

4) Эксперимент: таблицы, которые переворачивают вывод

Андрей открыл блокнот и нарисовал две маленькие таблицы. Он говорил медленно, чтобы Кира могла следить глазами, а не верить на слово.

4.1. Подгруппа 1: лёгкие пациенты

Допустим, в лёгких случаях:

– новое лечение: 90 успехов из 100 (90%)

– старое лечение: 80 успехов из 100 (80%)

Новое лучше.

4.2. Подгруппа 2: тяжёлые пациенты

В тяжёлых случаях:

– новое лечение: 30 успехов из 100 (30%)

– старое лечение: 20 успехов из 100 (20%)

Новое опять лучше.

4.3. Теперь «подстава»: разный состав групп

А теперь предположим, что новое лечение чаще дают тяжёлым пациентам. Например:

– новое лечение: 100 лёгких + 900 тяжёлых