реклама
Бургер менюБургер меню

Юрий Белк – Хеш-сумма Вселенной. Научные парадоксы. Том 1 (страница 7)

18

Кира сжала губы.

– Вы опять про «совпадения»?

– Я про отбор, – ответил Андрей. – Про то, как данные становятся ложными, когда мы смотрим не на весь мир, а только на тех, кто попал в нашу папку.

Он повернул ноутбук к ней.

– Смотрите. Здесь есть одна статистическая ловушка, которая делает «заговор» почти неизбежным, даже если его нет. Она называется парадокс Берксона.

Кира устало опустилась на стул.

– Тогда объясняйте, – сказала она. – Только человеческим языком.

2) Формулировка парадокса

Парадокс Берксона (Berkson’s paradox), он же смещение отбора:

Если мы отбираем данные по условию, зависящему от двух признаков, то внутри отобранной группы эти признаки могут казаться связанными (или даже отрицательно коррелированными), хотя в общей популяции связи нет.

Проще:

– В мире признаки A и B могут быть независимыми.

– Но если мы смотрим только на тех, у кого A или B достаточно велики, чтобы попасть в выборку, то внутри выборки появится ложная зависимость: «если мало A, то должно быть много B, чтобы пройти фильтр».

Классический бытовой пример: «в престижном вузе красивые студенты глупее». Звучит как шутка. Но это может быть чистая статистика: если отбор идёт по суммарному «таланту», то у прошедших фильтр может возникать отрицательная корреляция между двумя независимыми качествами.

3) Эксперимент (на пальцах + мини‑модель)

Андрей взял лист бумаги и нарисовал прямоугольник – «все люди».

– Представьте, – сказал он, – что у каждого человека есть два независимых качества. Например:

A – внимательность (или аккуратность в правилах),

B – смелость (или решительность).

В общей популяции они независимы: внимательные бывают смелыми и трусливыми, невнимательные тоже.

Кира кивнула:

– Допустим.

– А теперь представьте, что мы отбираем только тех, кто попал в ДТП со смертельным исходом. Страшно, но это тоже фильтр: он пропускает тех, у кого комбинация факторов стала фатальной.

Кира побледнела, но не перебила.

– Пусть риск попасть в смертельное ДТП растёт, когда либо внимание низкое, либо смелость слишком высокая (например, человек склонен переходить дорогу «на авось»). То есть фильтр звучит так: «пропустить, если A мало или B много».

– И что?

– И то, что среди погибших вы можете увидеть ложную связь: «если человек был внимательным, значит, он был слишком смелым; если был осторожным, значит, был невнимательным». Хотя в целом по миру эта связь отсутствует.

Андрей нарисовал координатную плоскость: по оси X – A, по оси Y – B.

– Теперь фильтр «попал в выборку» может выглядеть как граница, отделяющая область «не попали» от области «попали». И вот внутри области «попали» точки будут располагаться так, что создадут видимость зависимости. Это и есть парадокс.

Кира нахмурилась:

– Но при чём здесь мой муж?

Андрей развернул к ней ноутбук.

– Смотрите. Вы сейчас отбираете факты по условию: «всё, что относится к смерти Сергея». Это очень сильный фильтр. И теперь любые два фактора, которые помогли приблизить его к перекрёстку в 20:07, будут внутри вашей выборки выглядеть связанными.

Он перечислил:

1) магазин закрылся раньше;

2) навигатор дал объезд;

3) Сергей вышел позже обычного;

4) водитель выбрал именно этот маршрут;

5) сигнал светофора совпал по фазе;

6) машина оказалась именно в этой полосе;

7) у Сергея был именно этот шаг, именно эта скорость.

– Все эти вещи в общем мире происходят постоянно, – сказал Андрей. – Магазины закрываются раньше. Навигаторы ошибаются. Люди гуглят тревожные запросы. Водители сворачивают. Светофоры переключаются.

Он сделал паузу.

– Но вы смотрите на них через фильтр «это привело к смерти». И фильтр заставляет их выглядеть как сговор.

Кира резко поднялась.

– Вы хотите сказать, что я должна принять это как «просто набор случайностей»?

– Нет. Я хочу сказать, что ощущение заговора – ожидаемый продукт отбора, даже без заговора. Поэтому, если мы хотим доказать, что заговор был, нам нужно сравнить: насколько «цепочка» уникальна относительно обычных дней.

Кира скрестила руки:

– Как это сделать?

Андрей почувствовал знакомую тяжесть: вот она, грань между математикой и этикой. Чтобы помочь Кире, ему нужно превратить чужую смерть в задачу о данных.

– Нам нужна контрольная группа, – сказал он. – Дни, когда Сергей ходил по этому району и не погибал. Маршруты, которые навигатор предлагал и ничего не случилось. Случаи, когда магазин закрывался раньше – и люди просто шли домой.

Кира смотрела на него, как на предателя. Потом тихо сказала:

– Вы хотите доказать, что смерть моего мужа статистически «нормальна»?

– Я хочу доказать, была ли она ненормально сконцентрирована по редким факторам, – ответил Андрей. – Это разные вещи.

Он помолчал и добавил:

– И ещё. Если Сергей действительно чувствовал слежку, нам нужно отделить: была ли это реальная слежка или продукт тревоги. В обоих случаях он страдал. Но механизмы разные – и ответы тоже.

Кира медленно села. Её голос стал ровным, как у человека, который надел форму.

– Хорошо, – сказала она. – Что вам нужно?

– Доступ к его телефону за последние полгода. Полная история геолокации. И, если возможно, данные навигатора и банка.

– Банк?

– Да. Траты помогают восстановить маршруты и привычки.

– Это… – Кира закрыла глаза на секунду. – Это грязно.

– Да, – сказал Андрей. – Но грязь – это то, где скрывается правда. Чистота – где скрывается миф.

В этот момент в коридоре квартиры щёлкнул выключатель, хотя они были одни. Свет в прихожей включился. Потом выключился. Потом включился снова – с паузой, как двойной пакет.

Кира подняла голову, губы дрогнули.