Юрий Белк – Хеш-сумма Вселенной. Научные парадоксы. Том 1 (страница 7)
Кира сжала губы.
– Вы опять про «совпадения»?
– Я про отбор, – ответил Андрей. – Про то, как данные становятся ложными, когда мы смотрим не на весь мир, а только на тех, кто попал в нашу папку.
Он повернул ноутбук к ней.
– Смотрите. Здесь есть одна статистическая ловушка, которая делает «заговор» почти неизбежным, даже если его нет. Она называется парадокс Берксона.
Кира устало опустилась на стул.
– Тогда объясняйте, – сказала она. – Только человеческим языком.
2) Формулировка парадокса
Парадокс Берксона (Berkson’s paradox), он же смещение отбора:
Если мы отбираем данные по условию, зависящему от двух признаков, то внутри отобранной группы эти признаки могут казаться связанными (или даже отрицательно коррелированными), хотя в общей популяции связи нет.
Проще:
– В мире признаки A и B могут быть независимыми.
– Но если мы смотрим только на тех, у кого A или B достаточно велики, чтобы попасть в выборку, то внутри выборки появится ложная зависимость: «если мало A, то должно быть много B, чтобы пройти фильтр».
Классический бытовой пример: «в престижном вузе красивые студенты глупее». Звучит как шутка. Но это может быть чистая статистика: если отбор идёт по суммарному «таланту», то у прошедших фильтр может возникать отрицательная корреляция между двумя независимыми качествами.
3) Эксперимент (на пальцах + мини‑модель)
Андрей взял лист бумаги и нарисовал прямоугольник – «все люди».
– Представьте, – сказал он, – что у каждого человека есть два независимых качества. Например:
A – внимательность (или аккуратность в правилах),
B – смелость (или решительность).
В общей популяции они независимы: внимательные бывают смелыми и трусливыми, невнимательные тоже.
Кира кивнула:
– Допустим.
– А теперь представьте, что мы отбираем только тех, кто попал в ДТП со смертельным исходом. Страшно, но это тоже фильтр: он пропускает тех, у кого комбинация факторов стала фатальной.
Кира побледнела, но не перебила.
– Пусть риск попасть в смертельное ДТП растёт, когда либо внимание низкое, либо смелость слишком высокая (например, человек склонен переходить дорогу «на авось»). То есть фильтр звучит так: «пропустить, если A мало или B много».
– И что?
– И то, что среди погибших вы можете увидеть ложную связь: «если человек был внимательным, значит, он был слишком смелым; если был осторожным, значит, был невнимательным». Хотя в целом по миру эта связь отсутствует.
Андрей нарисовал координатную плоскость: по оси X – A, по оси Y – B.
– Теперь фильтр «попал в выборку» может выглядеть как граница, отделяющая область «не попали» от области «попали». И вот внутри области «попали» точки будут располагаться так, что создадут видимость зависимости. Это и есть парадокс.
Кира нахмурилась:
– Но при чём здесь мой муж?
Андрей развернул к ней ноутбук.
– Смотрите. Вы сейчас отбираете факты по условию: «всё, что относится к смерти Сергея». Это очень сильный фильтр. И теперь любые два фактора, которые помогли приблизить его к перекрёстку в 20:07, будут внутри вашей выборки выглядеть связанными.
Он перечислил:
1) магазин закрылся раньше;
2) навигатор дал объезд;
3) Сергей вышел позже обычного;
4) водитель выбрал именно этот маршрут;
5) сигнал светофора совпал по фазе;
6) машина оказалась именно в этой полосе;
7) у Сергея был именно этот шаг, именно эта скорость.
– Все эти вещи в общем мире происходят постоянно, – сказал Андрей. – Магазины закрываются раньше. Навигаторы ошибаются. Люди гуглят тревожные запросы. Водители сворачивают. Светофоры переключаются.
Он сделал паузу.
– Но вы смотрите на них через фильтр «это привело к смерти». И фильтр заставляет их выглядеть как сговор.
Кира резко поднялась.
– Вы хотите сказать, что я должна принять это как «просто набор случайностей»?
– Нет. Я хочу сказать, что ощущение заговора – ожидаемый продукт отбора, даже без заговора. Поэтому, если мы хотим доказать, что заговор был, нам нужно сравнить: насколько «цепочка» уникальна относительно обычных дней.
Кира скрестила руки:
– Как это сделать?
Андрей почувствовал знакомую тяжесть: вот она, грань между математикой и этикой. Чтобы помочь Кире, ему нужно превратить чужую смерть в задачу о данных.
– Нам нужна контрольная группа, – сказал он. – Дни, когда Сергей ходил по этому району и не погибал. Маршруты, которые навигатор предлагал и ничего не случилось. Случаи, когда магазин закрывался раньше – и люди просто шли домой.
Кира смотрела на него, как на предателя. Потом тихо сказала:
– Вы хотите доказать, что смерть моего мужа статистически «нормальна»?
– Я хочу доказать, была ли она ненормально сконцентрирована по редким факторам, – ответил Андрей. – Это разные вещи.
Он помолчал и добавил:
– И ещё. Если Сергей действительно чувствовал слежку, нам нужно отделить: была ли это реальная слежка или продукт тревоги. В обоих случаях он страдал. Но механизмы разные – и ответы тоже.
Кира медленно села. Её голос стал ровным, как у человека, который надел форму.
– Хорошо, – сказала она. – Что вам нужно?
– Доступ к его телефону за последние полгода. Полная история геолокации. И, если возможно, данные навигатора и банка.
– Банк?
– Да. Траты помогают восстановить маршруты и привычки.
– Это… – Кира закрыла глаза на секунду. – Это грязно.
– Да, – сказал Андрей. – Но грязь – это то, где скрывается правда. Чистота – где скрывается миф.
В этот момент в коридоре квартиры щёлкнул выключатель, хотя они были одни. Свет в прихожей включился. Потом выключился. Потом включился снова – с паузой, как двойной пакет.
Кира подняла голову, губы дрогнули.