Адам Кучарски – Законы эпидемий. Как развиваются и почему прекращаются эпидемии болезней, финансовые кризисы, вспышки насилия и модные тренды (страница 56)
Когда в начале XXI века в моду вошел термин «большие данные», перспективы их разнопланового использования вызывали оптимизм. Все надеялись, что данные, собранные для какой-то одной цели, помогут решать проблемы и в других сферах. Ярким примером такого подхода был сервис
У проекта
Во-вторых, никто не знал, как делаются прогнозы. Механизм работы
В-третьих, создатели сервиса не ставили перед собой амбициозные цели – и это, пожалуй, была самая серьезная проблема
Такую ошибку нередко совершают исследователи и представители бизнеса, заявляя о применении больших наборов данных к самым разным сферам жизни. Многие считают, что такие огромные объемы данных обязательно помогут ответить на какие-то важные вопросы. По сути, эти люди просто пытаются подыскать проблему для готового решения.
В конце 2016 года эпидемиолог Кэролайн Баки участвовала в мероприятии по привлечению средств на развитие технологий, где рассказывала представителям компаний из Кремниевой долины о своей работе. У Баки был большой опыт применения современных технологий при анализе эпидемий. В последние годы она работала над несколькими исследованиями, в которых использовались данные
Многие из предлагаемых технологических подходов нереализуемы и неприемлемы. Баки указывала на ряд неудачных пилотных исследований и приложений, которые были нацелены на подрыв традиционных методов. В сфере здравоохранения необходимо оценивать эффективность принимаемых мер, а не просто надеяться, что хорошие идеи возникнут сами собой, как успешный стартап. «Чтобы подготовиться к пандемии, нужен не подрыв, а долгая работа над политически сложными, многоплановыми проблемами», – говорит Баки.
И все же технологии играют важную роль в современных исследованиях эпидемий. Ученые привыкли использовать математические модели для разработки контрольных мер, смартфоны для сбора данных о пациентах и генетические последовательности патогенов для отслеживания путей распространения инфекции[603]. Но самые серьезные задачи носят скорее практический, чем математический характер. Одно дело – собрать и проанализировать данные, и совсем другое – выявить вспышку и привлечь ресурсы для борьбы с ней. Во время первой крупной эпидемии Эболы в 2014 году вирус распространялся в Сьерра-Леоне, Либерии и Гвинее, которые входили в число беднейших стран мира. Вторая масштабная эпидемия Эболы началась в 2018 году в зоне конфликта на северо-востоке Демократической Республики Конго; в июле 2019 года, когда было зарегистрировано 2500 случаев заболевания, ВОЗ объявила «чрезвычайную ситуацию в области общественного здравоохранения, имеющую международное значение»[604]. Глобальное неравенство в возможностях здравоохранения проявляется даже в научной терминологии. Вирус гриппа, вызвавший пандемию 2009 года, появился в Мексике, однако получил официальное название
Из-за логистических проблем исследователям трудно угнаться за новыми вспышками. В 2015 и 2016 годах широко распространился вирус Зика, и были запланированы масштабные клинические исследования и испытания вакцин[606]. Но эпидемия угасла еще до того, как начались многие из этих исследований. Эта досадная проблема часто возникает при изучении вспышек: к моменту исчезновения инфекции многие связанные с ней вопросы остаются без ответа. Вот почему так важны долгосрочные исследования. Нашей группе удалось собрать большой массив данных о вспышке вируса Зика на Фиджи – но лишь потому, что мы уже были на месте и изучали лихорадку денге. Аналогичным образом лучшие данные по вирусу Зика были получены благодаря тому, что в Никарагуа проводилось долговременное исследование лихорадки денге под руководством Эвы Харрис из Калифорнийского университета в Беркли[607].
Исследователи не успевают изучать эпидемии и в других сферах. Многие исследования, посвященные вбросам ложной информации во время президентских выборов в США 2016 года, были опубликованы только в 2018–2019 годах. Другие проекты по изучению вмешательства в выборы так и не начались, а некоторые оказалось невозможно реализовать, поскольку руководство соцсетей удалило – случайно или намеренно – необходимые данные[608]. Отрывочные и ненадежные данные не позволяют в полной мере изучить банковские кризисы, вооруженное насилие и злоупотребление опиоидами[609].
Но получение информации – это лишь часть проблемы. Даже в самых лучших наборах данных присутствуют случайности и отклонения, которые затрудняют анализ. Элис Стюарт, изучавшая связь между облучением и раком, отмечала, что эпидемиологи редко обладают такой роскошью, как идеальные данные. «Здесь вы не ищете проблемные пятна на чистой поверхности, – писала она[610]. – Вы ищете проблемные пятна в условиях полного беспорядка». Те же сложности возникают и в других областях, пытаетесь ли вы изучить распространение ожирения между друзьями или передачу информации в разных соцсетях. Наша жизнь сложна и запутанна – и такими же получаются наборы данных, которые она порождает.
Если мы хотим лучше разобраться в механизмах заражения, нужно учитывать его динамическую природу. То есть мы должны адаптировать свои методы исследований к разным вспышкам, действовать как можно быстрее, чтобы результаты принесли практическую пользу, и находить новые способы объединять разные данные. Например, исследователи болезней для изучения неуловимых вспышек теперь совмещают данные о случаях заболеваний, поведении людей, коллективном иммунитете и эволюции патогена. У каждого набора данных есть свои недостатки, но в совокупности они дают более полную картину заражения. Описывая такие подходы, Кэролайн Баки процитировала Вирджинию Вулф, которая однажды сказала, что «истину можно обрести только сложив множество разных ошибок»[611].
Мы должны не только совершенствовать наши методы, но и сосредоточиться на тех вопросах, которые действительно важны. Возьмем, например, социальное заражение. Нам доступен огромный массив данных, но мы все еще плохо понимаем, как распространяются идеи. Одна из причин в том, что те результаты, которые интересуют нас, не всегда оказываются в приоритете у технологических компаний. Они стремятся побудить пользователей взаимодействовать с их продуктами таким образом, чтобы это приносило доход от рекламы. Это сказывается на нашем подходе к заражению в интернете. Мы склонны фокусироваться на количественных показателях, придуманных владельцами соцсетей (как получить больше лайков? как сделать пост вирусным?), а не на результатах, которые сделают нас здоровее, счастливее или успешнее.
Современные вычислительные средства позволят нам обрести желаемые знания о социальном поведении, если мы научимся задавать правильные вопросы. Парадокс в том, что вопросы, которые нас беспокоят, чаще всего вызывают неоднозначную реакцию. Вспомним эксперимент, посвященный распространению эмоций в фейсбуке, когда исследователи изменяли новостную ленту пользователей, показывая больше позитивных или негативных публикаций. И дизайн эксперимента, и его реализация подверглись серьезной критике, однако исследователей интересовал действительно важный вопрос: как контент в соцсетях влияет на наше эмоциональное состояние?