Адам Кучарски – Законы эпидемий. Как развиваются и почему прекращаются эпидемии болезней, финансовые кризисы, вспышки насилия и модные тренды (страница 56)

Шрифт

Когда в начале XXI века в моду вошел термин «большие данные», перспективы их разнопланового использования вызывали оптимизм. Все надеялись, что данные, собранные для какой-то одной цели, помогут решать проблемы и в других сферах. Ярким примером такого подхода был сервис Google Flu Trends (GFT)[596]. Исследователи предполагали, что, анализируя запросы миллионов пользователей, они смогут следить за распространением гриппа в реальном времени, а не ждать неделю или две, пока будут опубликованы официальные данные об эпидемии[597]. Первая версия GFT появилась в 2009 году, и результаты были многообещающими. Однако критика не заставила себя долго ждать.

У проекта GFT было три главных недостатка. Во-первых, прогнозы не всегда оказывались точными. GFT правильно воспроизвел зимние эпидемии гриппа в США в период с 2003 по 2008 год, но серьезно недооценил масштаб пандемии, неожиданно начавшейся весной 2009 года[598]. По замечанию одной группы ученых, «первая версия GFT была отчасти детектором гриппа, а отчасти детектором зимы»[599].

Во-вторых, никто не знал, как делаются прогнозы. Механизм работы GFT был непрозрачен: на входе – данные о запросах в интернете, на выходе – предсказание. Компания Google не раскрывала научному сообществу ни собранные данные, ни методы их обработки, поэтому никто не мог понять, как ведется анализ и почему в одних случаях алгоритм работает хорошо, а в других – плохо.

В-третьих, создатели сервиса не ставили перед собой амбициозные цели – и это, пожалуй, была самая серьезная проблема GFT. С эпидемиями гриппа мы сталкиваемся каждую зиму, потому что вирус эволюционирует и это делает существующие вакцины менее эффективными. Власти так беспокоятся по поводу грядущих пандемий гриппа именно потому, что готовой эффективной вакцины против нового штамма не существует. При возникновении пандемии на разработку такой вакцины уйдет полгода[600], и за это время вирус распространится очень широко. Чтобы предсказывать характер эпидемий гриппа, мы должны лучше понимать, как эволюционирует вирус, как люди взаимодействуют между собой и как в популяции формируется коллективный иммунитет[601]. В этой непростой ситуации GFT может в лучшем случае сообщить об активности гриппа примерно на неделю раньше, чем мы узнали бы о ней сами. Эта идея интересна с точки зрения анализа данных – но в ней нет ничего революционного применительно к борьбе с эпидемией.

Такую ошибку нередко совершают исследователи и представители бизнеса, заявляя о применении больших наборов данных к самым разным сферам жизни. Многие считают, что такие огромные объемы данных обязательно помогут ответить на какие-то важные вопросы. По сути, эти люди просто пытаются подыскать проблему для готового решения.

В конце 2016 года эпидемиолог Кэролайн Баки участвовала в мероприятии по привлечению средств на развитие технологий, где рассказывала представителям компаний из Кремниевой долины о своей работе. У Баки был большой опыт применения современных технологий при анализе эпидемий. В последние годы она работала над несколькими исследованиями, в которых использовались данные GPS для изучения путей передачи малярии. И она не соглашалась с мнением большинства участников мероприятия, считавших, что достаточное количество денег и программистов решит проблемы мирового здравоохранения. «В мире, где технологические гиганты становятся основными спонсорами исследований, мы не должны прельщаться идеей, что молодые, технически продвинутые выпускники колледжей могут в одиночку решить проблемы здравоохранения на своих компьютерах», – писала она позднее[602].

Многие из предлагаемых технологических подходов нереализуемы и неприемлемы. Баки указывала на ряд неудачных пилотных исследований и приложений, которые были нацелены на подрыв традиционных методов. В сфере здравоохранения необходимо оценивать эффективность принимаемых мер, а не просто надеяться, что хорошие идеи возникнут сами собой, как успешный стартап. «Чтобы подготовиться к пандемии, нужен не подрыв, а долгая работа над политически сложными, многоплановыми проблемами», – говорит Баки.

И все же технологии играют важную роль в современных исследованиях эпидемий. Ученые привыкли использовать математические модели для разработки контрольных мер, смартфоны для сбора данных о пациентах и генетические последовательности патогенов для отслеживания путей распространения инфекции[603]. Но самые серьезные задачи носят скорее практический, чем математический характер. Одно дело – собрать и проанализировать данные, и совсем другое – выявить вспышку и привлечь ресурсы для борьбы с ней. Во время первой крупной эпидемии Эболы в 2014 году вирус распространялся в Сьерра-Леоне, Либерии и Гвинее, которые входили в число беднейших стран мира. Вторая масштабная эпидемия Эболы началась в 2018 году в зоне конфликта на северо-востоке Демократической Республики Конго; в июле 2019 года, когда было зарегистрировано 2500 случаев заболевания, ВОЗ объявила «чрезвычайную ситуацию в области общественного здравоохранения, имеющую международное значение»[604]. Глобальное неравенство в возможностях здравоохранения проявляется даже в научной терминологии. Вирус гриппа, вызвавший пандемию 2009 года, появился в Мексике, однако получил официальное название A/California/7/2009(H1N1), поскольку новый вирус впервые выделила именно калифорнийская лаборатория[605].

Из-за логистических проблем исследователям трудно угнаться за новыми вспышками. В 2015 и 2016 годах широко распространился вирус Зика, и были запланированы масштабные клинические исследования и испытания вакцин[606]. Но эпидемия угасла еще до того, как начались многие из этих исследований. Эта досадная проблема часто возникает при изучении вспышек: к моменту исчезновения инфекции многие связанные с ней вопросы остаются без ответа. Вот почему так важны долгосрочные исследования. Нашей группе удалось собрать большой массив данных о вспышке вируса Зика на Фиджи – но лишь потому, что мы уже были на месте и изучали лихорадку денге. Аналогичным образом лучшие данные по вирусу Зика были получены благодаря тому, что в Никарагуа проводилось долговременное исследование лихорадки денге под руководством Эвы Харрис из Калифорнийского университета в Беркли[607].

Исследователи не успевают изучать эпидемии и в других сферах. Многие исследования, посвященные вбросам ложной информации во время президентских выборов в США 2016 года, были опубликованы только в 2018–2019 годах. Другие проекты по изучению вмешательства в выборы так и не начались, а некоторые оказалось невозможно реализовать, поскольку руководство соцсетей удалило – случайно или намеренно – необходимые данные[608]. Отрывочные и ненадежные данные не позволяют в полной мере изучить банковские кризисы, вооруженное насилие и злоупотребление опиоидами[609].

Но получение информации – это лишь часть проблемы. Даже в самых лучших наборах данных присутствуют случайности и отклонения, которые затрудняют анализ. Элис Стюарт, изучавшая связь между облучением и раком, отмечала, что эпидемиологи редко обладают такой роскошью, как идеальные данные. «Здесь вы не ищете проблемные пятна на чистой поверхности, – писала она[610]. – Вы ищете проблемные пятна в условиях полного беспорядка». Те же сложности возникают и в других областях, пытаетесь ли вы изучить распространение ожирения между друзьями или передачу информации в разных соцсетях. Наша жизнь сложна и запутанна – и такими же получаются наборы данных, которые она порождает.

Если мы хотим лучше разобраться в механизмах заражения, нужно учитывать его динамическую природу. То есть мы должны адаптировать свои методы исследований к разным вспышкам, действовать как можно быстрее, чтобы результаты принесли практическую пользу, и находить новые способы объединять разные данные. Например, исследователи болезней для изучения неуловимых вспышек теперь совмещают данные о случаях заболеваний, поведении людей, коллективном иммунитете и эволюции патогена. У каждого набора данных есть свои недостатки, но в совокупности они дают более полную картину заражения. Описывая такие подходы, Кэролайн Баки процитировала Вирджинию Вулф, которая однажды сказала, что «истину можно обрести только сложив множество разных ошибок»[611].

Мы должны не только совершенствовать наши методы, но и сосредоточиться на тех вопросах, которые действительно важны. Возьмем, например, социальное заражение. Нам доступен огромный массив данных, но мы все еще плохо понимаем, как распространяются идеи. Одна из причин в том, что те результаты, которые интересуют нас, не всегда оказываются в приоритете у технологических компаний. Они стремятся побудить пользователей взаимодействовать с их продуктами таким образом, чтобы это приносило доход от рекламы. Это сказывается на нашем подходе к заражению в интернете. Мы склонны фокусироваться на количественных показателях, придуманных владельцами соцсетей (как получить больше лайков? как сделать пост вирусным?), а не на результатах, которые сделают нас здоровее, счастливее или успешнее.

Современные вычислительные средства позволят нам обрести желаемые знания о социальном поведении, если мы научимся задавать правильные вопросы. Парадокс в том, что вопросы, которые нас беспокоят, чаще всего вызывают неоднозначную реакцию. Вспомним эксперимент, посвященный распространению эмоций в фейсбуке, когда исследователи изменяли новостную ленту пользователей, показывая больше позитивных или негативных публикаций. И дизайн эксперимента, и его реализация подверглись серьезной критике, однако исследователей интересовал действительно важный вопрос: как контент в соцсетях влияет на наше эмоциональное состояние?

55 56 57 58 Вперед