Джордж Зейдан – Ингредиенты. Странные химические свойства того, что мы едим, пьем и наносим на кожу (страница 32)
Выбоина № 5: манипуляция статистикой, включая Р-хакинг
В ходе крупных проспективных когортных исследований ученые обычно измеряют сотни переменных (рост, вес, группа крови, уровень образования, количество рыбы, съедаемой в сутки, число пакетов Cheetos, потребляемых за день, и так до бесконечности). И во время анализа данных они принимают сотни решений (кого включить, исключить, как долго наблюдать за участниками, какую математическую модель использовать и т. д.). Иными словами, у ученых есть множество вариантов, как организовать эксперимент, и
Двигаемся дальше.
Изучая результаты крупного проспективного когортного исследования, представьте себе следующий сценарий: вы пришли к соседям на барбекю по случаю Дня независимости[127]. Вокруг бургеры, собаки и семьи с детьми-подростками. Хозяева знакомят вас с их дочерью, которая учится на одни пятерки и сейчас проходит летнюю стажировку в крупной компании. Вы думаете: «Ого! Они, должно быть, прекрасные родители!» Но вот в чем проблема: нет никакой гарантии, что все их дети добились успеха. Возможно, у этой девочки есть брат, который, устав от ежегодных вечеринок в честь Дня независимости, сидит в своей комнате, дышит краской и отправляет учителям непристойные фотографии. Иными словами, вы можете видеть только
Я упомянул метафору о ребенке, нюхающем краску, в разговоре с Брайаном Нозеком, и он очень удивился. К счастью, вместо того чтобы просто повесить трубку, он предложил не менее иллюстративный, но куда менее странный показатель: «Если вы можете сказать заранее: „Вот это я собираюсь сделать. Такой результат я, скорее всего, получу. Это, как мне кажется, произойдет”, тогда я буду впечатлен. Постфактум все кажется уже не таким эффектным».
Давайте рассмотрим конкретный пример.
В исследовании NutriNet-Santé изучалась связь между потреблением ультраобработанных пищевых продуктов и шестью видами рака: простаты, толстой кишки, молочной железы до и после менопаузы и любого другого онкологического заболевания.
Серьезно?
Существует более 100 разных видов рака.
Есть ли связь между потреблением ультраобработанных пищевых продуктов и злокачественной опухолью желудка? Предположим, что авторы проверили эту гипотезу и получили Р-значение 0,35.
А что насчет рака пищевода? Р-значение 0,78.
Рак мозга? Р-значение 0,09.
Рак молочной железы после менопаузы? Р-значение 0,02.
Бинго!
Видите, куда меня это привело? «Вид рака» – это лишь одна переменная. Есть сотни других, как явных, так и скрытых, с которыми исследователи могли бы «поиграть». На самом деле нет ничего ужасного в том, чтобы свести 100 видов онкологических заболеваний к шести или выбрать любую другую переменную. Каждый ученый
У ученых эта гарантия называется предварительной регистрацией исследования.
Так вы сообщаете миру, какие именно переменные собираетесь тестировать и как будете анализировать данные, прежде чем зарегистрировать первого участника эксперимента. Если вы просмотрите базу данных предварительной регистрации исследований NIH, то найдете там SUN и NutriNet-Santé.
Ну что, можно поставить галочку?
Нет.
Они оба были «предварительно» зарегистрированы
Так что мы в итоге получаем?
Из всех выбоин на дороге к подлинной связи базовые арифметические и процедурные ошибки являются самыми забавными, потому что они не подвергаются
Время притормозить. Мы бежим впереди паровоза. Есть и другие выбоины, о которых мы пока не говорили.
Глава 8. Чем пахнет в общественном бассейне?
Эта глава о кофе (снова), хлоре, общественных бассейнах, красном нижнем белье и кесадилье.
Выбоины, которые мы рассматривали до сих пор, находились на дороге к подлинной связи. Но давайте на мгновение предположим, что у вас есть корреляция, которая на 100 %, абсолютно, позитивно, безоговорочно подлинна. Как можно быть настолько в этом уверенным? Дело в том, что вам сообщили об этом из Неопалимой купины[128]. Вам сказали: «Владение дробовиком очень тесно связано с наличием большого числа половых партнеров женского пола». Давайте предположим, что Господь не прибегал к Р-хакингу и не делал глупых математических ошибок. Итак, вы знаете, что связь подлинна.
В шестой главе мы уже говорили о том, что далее вы должны задаться вопросом: является ли связь
Иными словами, предпочитают ли женщины спать с владельцами дробовиков
Весь смысл этого в том, чтобы ответить на вопрос, который следует далее: если я куплю дробовик, начнут ли женщины сами прыгать ко мне в постель?
Нет.
На самом деле я не сказал вам о том, что является причиной обладания
Попробуйте угадать, а затем переверните страницу.
Это галочка рядом со словом «мужчина» в опроснике.
Если задуматься, то это не кажется удивительным. Если вы мужчина, то у вас статистически больше шансов иметь дробовик и заниматься сексом с женщинами. Если говорить на языке корреляций, то связь между двумя этими утверждениями является подлинной, но не причинно-следственной. Таким образом, если вы покупаете дробовик с целью чаще спать с женщинами, то, вероятно, это не сработает, извините.
Подлинные, но не причинно-следственные связи, вызванные другими скрытыми факторами, называются спутанными. К сожалению, их часто гораздо сложнее обнаружить, чем в странном, но правдивом вышеприведенном примере.
Давайте рассмотрим спутанную связь в реальной жизни.
Многочисленные исследования выявили корреляцию между кофе и повышенным риском развития рака легких. Один эксперимент показал, что у любителей кофе на 28 % более высокий риск развития рака легких, чем у людей, которые не пьют его. Этот вывод был основан на более чем восьми исследованиях, в ходе которых было выявлено более 11 тысяч случаев рака легких. Р-значение составило 0,004.
Это весьма странно: как может то, что вообще не соприкасается с легкими, вызывать злокачественную опухоль в этом органе? Помните NNK, канцероген из сигарет, который вызывал у крыс это заболевание, независимо от способа попадания в организм? Может, он есть в кофе?
Оказалось, что нет, однако напиток содержит химическое вещество под названием «акриламид», которое также присутствует в сигаретах и жареных крахмалистых продуктах (и некоторых других). Международное агентство по изучению рака, Национальная токсикологическая программа США и американское Агентство по охране окружающей среды заявили, что это вещество может являться канцерогенным для человека, поскольку способно вызывать рак щитовидной железы у мышей и крыс.
Следовательно, акриламид, содержащийся в кофе, вызывает рак легких. Дело закрыто?
Нет.
Во-первых, дозы, которые приводили к появлению злокачественных опухолей у лабораторных животных, были в 1000–10 000 раз выше, чем та, которую получает человек из кофе. Во-вторых, несмотря на то что напиток содержит как минимум одно химическое вещество, способное вызывать рак, в нем также есть соединения, предположительно предотвращающие развитие онкологических заболеваний. Однако самым важным является третий фактор – курение.
Как вы уже знаете из четвертой главы, эта привычка значительно повышает риск развития рака легких. Она также тесно связана с употреблением кофе.
Первоначальная картина выглядела так:
Так что же ускоряет развитие рака: кофе или курение? Есть три способа ответить на этот вопрос: легкий, средний и сложный. Проще всего было бы предположить, что самая вероятная причина корреляции между кофе (или чего-то еще) и раком легких – это очень тесная причинно-следственная связь курения с этим заболеванием. Это не бредовая мысль, но она не кажется убедительной. Сложный способ ответить на этот вопрос – это, как вы наверняка уже догадались, организовать рандомизированное контролируемое исследование. Вы наберете тысячу человек, случайным образом разделите их на две группы, заставите одну пить кофе, а вторую – воздерживаться от него, а затем увидите, у кого развился рак легких. Такой эксперимент был бы не просто трудным, но также этически спорным и очень дорогостоящим. Кроме того, понадобилось бы как минимум 10 лет, чтобы ответить на интересующий нас вопрос.