реклама
Бургер менюБургер меню

Джордж Зейдан – Ингредиенты. Странные химические свойства того, что мы едим, пьем и наносим на кожу (страница 32)

18

Выбоина № 5: манипуляция статистикой, включая Р-хакинг

В ходе крупных проспективных когортных исследований ученые обычно измеряют сотни переменных (рост, вес, группа крови, уровень образования, количество рыбы, съедаемой в сутки, число пакетов Cheetos, потребляемых за день, и так до бесконечности). И во время анализа данных они принимают сотни решений (кого включить, исключить, как долго наблюдать за участниками, какую математическую модель использовать и т. д.). Иными словами, у ученых есть множество вариантов, как организовать эксперимент, и это значит, что Р-хакинг, осознанный или нет, становится гораздо проще. К сожалению, практически невозможно прочитать статью и определить, имела ли место манипуляция данными, если, конечно, профессор не напишет в своем блоге длинный пост, где случайно признается, что заставил студентку прибегнуть к ней. (Да, такое на самом деле было. Загуглите «Брайан Вансинк».)

Двигаемся дальше.

Изучая результаты крупного проспективного когортного исследования, представьте себе следующий сценарий: вы пришли к соседям на барбекю по случаю Дня независимости[127]. Вокруг бургеры, собаки и семьи с детьми-подростками. Хозяева знакомят вас с их дочерью, которая учится на одни пятерки и сейчас проходит летнюю стажировку в крупной компании. Вы думаете: «Ого! Они, должно быть, прекрасные родители!» Но вот в чем проблема: нет никакой гарантии, что все их дети добились успеха. Возможно, у этой девочки есть брат, который, устав от ежегодных вечеринок в честь Дня независимости, сидит в своей комнате, дышит краской и отправляет учителям непристойные фотографии. Иными словами, вы можете видеть только определенный набор переменных и анализ, который привел к «успешной» связи.

Я упомянул метафору о ребенке, нюхающем краску, в разговоре с Брайаном Нозеком, и он очень удивился. К счастью, вместо того чтобы просто повесить трубку, он предложил не менее иллюстративный, но куда менее странный показатель: «Если вы можете сказать заранее: „Вот это я собираюсь сделать. Такой результат я, скорее всего, получу. Это, как мне кажется, произойдет”, тогда я буду впечатлен. Постфактум все кажется уже не таким эффектным».

Давайте рассмотрим конкретный пример.

В исследовании NutriNet-Santé изучалась связь между потреблением ультраобработанных пищевых продуктов и шестью видами рака: простаты, толстой кишки, молочной железы до и после менопаузы и любого другого онкологического заболевания.

Серьезно?

Существует более 100 разных видов рака.

Есть ли связь между потреблением ультраобработанных пищевых продуктов и злокачественной опухолью желудка? Предположим, что авторы проверили эту гипотезу и получили Р-значение 0,35.

А что насчет рака пищевода? Р-значение 0,78.

Рак мозга? Р-значение 0,09.

Рак молочной железы после менопаузы? Р-значение 0,02.

Бинго!

Видите, куда меня это привело? «Вид рака» – это лишь одна переменная. Есть сотни других, как явных, так и скрытых, с которыми исследователи могли бы «поиграть». На самом деле нет ничего ужасного в том, чтобы свести 100 видов онкологических заболеваний к шести или выбрать любую другую переменную. Каждый ученый должен решать, что исследовать. Однако я полагаю, что вы, как читатели, имеете право на гарантию того, что переменные были выбраны до проведения анализа данных, или хотя бы получить предупреждение об обратном.

У ученых эта гарантия называется предварительной регистрацией исследования.

Так вы сообщаете миру, какие именно переменные собираетесь тестировать и как будете анализировать данные, прежде чем зарегистрировать первого участника эксперимента. Если вы просмотрите базу данных предварительной регистрации исследований NIH, то найдете там SUN и NutriNet-Santé.

Ну что, можно поставить галочку?

Нет.

Они оба были «предварительно» зарегистрированы спустя много лет после их начала. Это так работать не должно. Справедливости ради следует отметить, что в начале проведения этих исследований предварительная регистрация не играла большой роли, но она обрела значимость задолго до того, как были опубликованы статьи об ультраобработанных пищевых продуктах. Таким образом, в идеале авторы должны были предварительно зарегистрировать свой план анализа информации, заявив: «Мы хотим проанализировать набор данных, чтобы увидеть, связано ли потребление ультраобработанных пищевых продуктов с лишним весом и ожирением (в случае SUN) или шестью видами рака (NutriNet-Santé), и вот как именно мы собираемся получать результаты». Насколько мне известно, это сделано не было. На самом деле в материалах для предварительной регистрации обоих испытаний ультраобработанная пища вообще не упоминается.

Так что мы в итоге получаем?

Из всех выбоин на дороге к подлинной связи базовые арифметические и процедурные ошибки являются самыми забавными, потому что они не подвергаются никаким сомнениям. По этой причине оплошность в PREDIMED попала в заголовки новостей по всему миру. Однако больше всего меня беспокоит (и заставляет подвергнуть сомнениям страшные цифры из первой главы) Р-хакинг, потому что, ознакомившись с исследованием, нельзя сказать наверняка, что вы видите перед собой: подлинную связь или результат творческой манипуляции.

Время притормозить. Мы бежим впереди паровоза. Есть и другие выбоины, о которых мы пока не говорили.

Глава 8. Чем пахнет в общественном бассейне?

Эта глава о кофе (снова), хлоре, общественных бассейнах, красном нижнем белье и кесадилье.

Выбоины, которые мы рассматривали до сих пор, находились на дороге к подлинной связи. Но давайте на мгновение предположим, что у вас есть корреляция, которая на 100 %, абсолютно, позитивно, безоговорочно подлинна. Как можно быть настолько в этом уверенным? Дело в том, что вам сообщили об этом из Неопалимой купины[128]. Вам сказали: «Владение дробовиком очень тесно связано с наличием большого числа половых партнеров женского пола». Давайте предположим, что Господь не прибегал к Р-хакингу и не делал глупых математических ошибок. Итак, вы знаете, что связь подлинна.

В шестой главе мы уже говорили о том, что далее вы должны задаться вопросом: является ли связь причинно-следственной?

Иными словами, предпочитают ли женщины спать с владельцами дробовиков из-за оружия?

Весь смысл этого в том, чтобы ответить на вопрос, который следует далее: если я куплю дробовик, начнут ли женщины сами прыгать ко мне в постель?

Нет.

На самом деле я не сказал вам о том, что является причиной обладания и дробовиком, и множеством женщин.

Попробуйте угадать, а затем переверните страницу.

Это галочка рядом со словом «мужчина» в опроснике.

Если задуматься, то это не кажется удивительным. Если вы мужчина, то у вас статистически больше шансов иметь дробовик и заниматься сексом с женщинами. Если говорить на языке корреляций, то связь между двумя этими утверждениями является подлинной, но не причинно-следственной. Таким образом, если вы покупаете дробовик с целью чаще спать с женщинами, то, вероятно, это не сработает, извините.

Подлинные, но не причинно-следственные связи, вызванные другими скрытыми факторами, называются спутанными. К сожалению, их часто гораздо сложнее обнаружить, чем в странном, но правдивом вышеприведенном примере.

Давайте рассмотрим спутанную связь в реальной жизни.

Многочисленные исследования выявили корреляцию между кофе и повышенным риском развития рака легких. Один эксперимент показал, что у любителей кофе на 28 % более высокий риск развития рака легких, чем у людей, которые не пьют его. Этот вывод был основан на более чем восьми исследованиях, в ходе которых было выявлено более 11 тысяч случаев рака легких. Р-значение составило 0,004.

Это весьма странно: как может то, что вообще не соприкасается с легкими, вызывать злокачественную опухоль в этом органе? Помните NNK, канцероген из сигарет, который вызывал у крыс это заболевание, независимо от способа попадания в организм? Может, он есть в кофе?

Оказалось, что нет, однако напиток содержит химическое вещество под названием «акриламид», которое также присутствует в сигаретах и жареных крахмалистых продуктах (и некоторых других). Международное агентство по изучению рака, Национальная токсикологическая программа США и американское Агентство по охране окружающей среды заявили, что это вещество может являться канцерогенным для человека, поскольку способно вызывать рак щитовидной железы у мышей и крыс.

Следовательно, акриламид, содержащийся в кофе, вызывает рак легких. Дело закрыто?

Нет.

Во-первых, дозы, которые приводили к появлению злокачественных опухолей у лабораторных животных, были в 1000–10 000 раз выше, чем та, которую получает человек из кофе. Во-вторых, несмотря на то что напиток содержит как минимум одно химическое вещество, способное вызывать рак, в нем также есть соединения, предположительно предотвращающие развитие онкологических заболеваний. Однако самым важным является третий фактор – курение.

Как вы уже знаете из четвертой главы, эта привычка значительно повышает риск развития рака легких. Она также тесно связана с употреблением кофе.

Первоначальная картина выглядела так:

Так что же ускоряет развитие рака: кофе или курение? Есть три способа ответить на этот вопрос: легкий, средний и сложный. Проще всего было бы предположить, что самая вероятная причина корреляции между кофе (или чего-то еще) и раком легких – это очень тесная причинно-следственная связь курения с этим заболеванием. Это не бредовая мысль, но она не кажется убедительной. Сложный способ ответить на этот вопрос – это, как вы наверняка уже догадались, организовать рандомизированное контролируемое исследование. Вы наберете тысячу человек, случайным образом разделите их на две группы, заставите одну пить кофе, а вторую – воздерживаться от него, а затем увидите, у кого развился рак легких. Такой эксперимент был бы не просто трудным, но также этически спорным и очень дорогостоящим. Кроме того, понадобилось бы как минимум 10 лет, чтобы ответить на интересующий нас вопрос.