реклама
Бургер менюБургер меню

Юрий Белк – Хеш-сумма Вселенной. Научные парадоксы. Том 1 (страница 8)

18

– Вы это видели?

Андрей не ответил сразу. Он встал, прошёл в коридор, проверил выключатель. Он был сухой, исправный, без люфта. Электрика не должна так работать.

Вернувшись, Андрей заметил на кухонном столе мокрый след – как от пальца, проведённого по пыли. След упирался в его блокнот.

Андрей открыл блокнот. На странице, где он рисовал координатную плоскость, появилась новая запись – тонкими буквами, будто продавили ногтем:

Отбор – это тоже алгоритм.

Алгоритм может быть враждебным.

Кира уставилась на запись.

– Вы это написали?

– Нет, – сказал Андрей.

И впервые он произнёс это вслух так, будто признавался в преступлении:

– Кажется, кто-то участвует в нашем эксперименте.

4) Современное состояние (где работает, где люди ошибаются)

4.1. Берксон – стандартная ловушка в медицине и расследованиях

Парадокс Берксона особенно часто встречается там, где выборка – это:

– пациенты больницы (попали по причине болезни);

– арестованные (попали по причине поимки);

– «успешные» компании (попали по причине выживания);

– «нашумевшие» происшествия (попали по причине попадания в новости);

– «случаи, которые мы исследуем» (попали по причине нашего внимания).

Внутри такой выборки легко обнаружить «корреляции», которых нет в общей популяции.

4.2. Почему мозг так охотно верит ложным связям

Потому что для выживания полезнее ошибочно увидеть «хищника» в кустах, чем пропустить реального. Мы биологически заточены под ложноположительные связи. Это спасало в саванне, но ломает в мире больших данных.

4.3. Как отличить ложную связь от настоящей

Принципиально:

– введите контрольную группу или сравнение с базовой частотой;

– определите критерии до просмотра данных (предрегистрация);

– проверьте, не обусловлена ли связь самим фактом попадания в выборку.

В прикладном смысле для дела Киры:

– «Навигатор дал объезд» – частое событие?

– «Магазин закрылся раньше» – насколько частое?

– «Сергей искал про слежку» – часто ли он вообще гуглил тревожные темы раньше?

– «Водитель поехал не тем маршрутом» – как часто навигатор перекидывает людей на этот перекрёсток?

Если это обычные частоты – «цепочка» перестаёт быть уникальной. Если частоты редкие и сконцентрированы в короткое окно – тогда появляется повод подозревать внешнее вмешательство.

4.4. Тонкость: смещение отбора не «опровергает заговор»

Главная ошибка новичков: «Если есть смещение отбора, значит, всё случайно». Нет. Смещение отбора говорит лишь: ваши интуитивные выводы ненадёжны.

Заговор может существовать – и именно поэтому у него есть идеальная маскировка: он может прятаться в тех местах, где статистика сама порождает видимость заговора.

Наблюдатель в этом смысле опасен: он может быть и «объяснением», и «приманкой». Он может создавать шум, чтобы вы не различили сигнал.

Андрей впервые допустил мысль, которая ему не нравилась: возможно, Наблюдатель не враг и не союзник. Возможно, он – условие эксперимента, которое нельзя выключить.

5) Крючок + головоломки

Крючок к Главе 3 (намёк)

Андрей собрал копии данных, которые Кира согласилась предоставить, и пообещал: через два дня вернётся с первыми результатами.

Когда он вышел из квартиры, в лифте пахло влажным металлом. На зеркале лифта кто-то пальцем написал цифры:

23

Андрей провёл по ним рукой – и цифры размазались водой.

Он смотрел на своё отражение и вдруг понял: Наблюдатель не просто вмешивается. Он обучает. Как будто тестирует, насколько Андрей способен отличать истинные зависимости от нарисованных.

И если это обучение – то у него будет экзамен.

Экзамен, где ставка – не «правильный ответ», а право оставаться собой.

Следующая глава будет про то, как даже честные данные начинают врать, когда мы задаём вопрос уже после того, как увидели ответ. Это будет история про подгонку и про то, почему в больших массивах данных всегда найдётся «значимая» закономерность – даже если мир шумит.

Название уже вертелось у Андрея на языке, как неприятное признание:

«Если долго искать – найдёшь всё».

Головоломки к Главе 2

1) Набор в клуб (Берксон на пальцах)

В клуб берут людей, если они очень богаты или очень известны. В общей популяции богатство и известность независимы.

Вопрос: какую корреляцию между богатством и известностью вы ожидаете увидеть внутри клуба и почему?

2) Больничная ловушка

В больнице исследуют связь между курением и заболеванием X, но выборка – только пациенты больницы.

Назовите два механизма, как попадание в больницу может исказить оценку связи курения и заболевания X.

3) «Цепочка событий»

Вы анализируете ДТП и видите 6 факторов, которые «сложились» в трагедию.

Как сформулировать проверяемую гипотезу (в духе статистики), которая отличит «необычную концентрацию редких факторов» от «обычной комбинации частых факторов»?

4) Личный фильтр

Опишите ситуацию из своей жизни, где вы могли видеть ложную связь из‑за отбора: вы общаетесь только с определённым кругом людей, читаете только определённые источники, видите только «выживших». Какой именно фильтр действует?

Глава 3. Симпсон: когда правда есть, но вывода – нет

1) Сцена

На второй день Андрей приехал к Кире с флешкой и усталостью, которая не лечится сном. Она открыла дверь сразу – будто стояла по ту сторону и ждала не звонка, а результата.