18+
реклама
18+
Бургер менюБургер меню

Том Чиверс – Цифры врут. Как не дать статистике обмануть себя (страница 2)

18

Одним из первых люди усвоили коэффициент распространения (R). Если еще в декабре 2019 года вряд ли хотя бы один человек из пятидесяти знал о нем, то уже к концу марта 2020-го этот показатель упоминался в новостях практически без всяких пояснений. Но поскольку числа могут вести себя очень коварно, искренние попытки сообщить аудитории об изменениях R вводили читателей и зрителей в заблуждение.

Напомним: R – это репродуктивное число чего-либо. Оно применимо ко всему, что распространяется или воспроизводится: мемам, людям, зевоте и новым технологиям. В эпидемиологии инфекционных болезней R – это число людей, которых в среднем заражает один заболевший. Если у инфекции коэффициент распространения равен пяти, то каждый инфицированный заражает в среднем пятерых.

Конечно, этот показатель не так прост: это всего лишь среднее. При R = 5 каждый из сотни человек может заразить ровно пятерых, но может случиться и так, что 99 человек не заразят никого, а один заразит 500 человек. Возможен и любой промежуточный вариант.

Причем с течением времени коэффициент распространения меняется. R может быть сильно больше в самом начале эпидемии, когда ни у кого еще нет иммунитета и никакие превентивные меры – социальное дистанцирование или ношение масок, – скорее всего, еще не приняты. Одна из задач здравоохранения в этот момент – с помощью вакцинации или выработки у населения новых привычек снизить R. Ведь если он выше единицы, инфекция будет распространяться экспоненциально, а если ниже – эпидемия сойдет на нет.

Но даже с учетом всех этих тонкостей можно было бы ожидать, что в случае вируса есть одно простое правило: если R растет, это плохо. Поэтому в начале мая 2020 года никого не удивлял тон сообщений, заполонивших британскую прессу: «коэффициент распространения вируса снова превысил единицу», вероятно из-за «скачка заболеваемости в домах престарелых».

Но, как обычно, всё несколько сложнее.

С 2000 по 2013 год медианная заработная плата в США выросла примерно на 1 % в реальном выражении (то есть с учетом инфляции).

Эту врезку читать необязательно, но, если вы не помните разницу между медианой и средним арифметическим, не пропускайте ее.

Понятия среднего арифметического, медианы и моды вы могли узнать в школе. Что такое среднее арифметическое, наверное, даже помните – нужно сумму нескольких чисел разделить на их количество. А медиана – это среднее число в последовательности чисел.

Разница вот в чем. Пусть население – 7 человек, причем один из них зарабатывает 1 фунт в год, один – 2 фунта и так далее – до 7. Если все эти числа сложить, получится 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28. Разделив 28 на число людей (7), получим 4 фунта. Среднее арифметическое – 4 фунта.

А чтобы узнать медиану, числа не складывают, а располагают по возрастанию: с левого края заработок в 1 фунт, потом – 2, и так до 7 с правого края. Так вы увидите, кто оказался в середине – человек, получающий 4 фунта. Так что и медиана у нас равна 4 фунтам.

Теперь представим, что тот, кто зарабатывает 7 фунтов, продает свой технический стартап компании Facebook за миллиард. Наше среднее арифметическое внезапно становится равно (1 + 2 + 3 + 4 + 5 + 6 + 1 000 000 000) / 7 = 142 857 146 фунтам. Таким образом, хотя положение 6 из 7 человек никак не изменилось, «среднестатистический гражданин» стал мультимиллионером.[3]

В подобных случаях неравномерного распределения статистики часто предпочитают иметь дело с медианой. Если мы снова выстроим людей по порядку возрастания их зарплат, то в середине опять окажется тот, кто зарабатывает 4 фунта. При изучении реального населения, состоящего из миллионов человек, медиана дает лучшее представление о ситуации, чем среднее арифметическое, особенно если оно искажено зарплатами нескольких суперпреуспевающих работников.

А мода – это самое частое значение. Поэтому, если у вас есть 17 человек, зарабатывающих по 1 фунту, 25 – по 2 и 42 – по 3, то мода – 3 фунта. Все несколько усложняется, когда статистики принимаются с помощью моды описывать непрерывные величины вроде высоты, но об этом мы пока постараемся не думать…

Кажется, что рост медианной заработной платы – это хорошо. Но если рассмотреть отдельные группы населения США, то можно обнаружить нечто странное. Медианный заработок тех, кто окончил только среднюю школу, снизился на 7,9 %; тех, кто окончил старшие классы, – на 4,7 %. Медианный заработок людей с неполным высшим образованием снизился на 7,6 %, а с высшим образованием – на 1,2 %.

Окончившие и не окончившие старшие классы, окончившие и не окончившие колледж – медианная зарплата во всех группах с определенным уровнем образования снизилась, хотя медианная зарплата населения в целом повысилась.

Как так?

Дело в том, что количество людей с высшим образованием увеличилось, а их медианный заработок снизился. В результате с медианой происходят странности. Это называется парадоксом Симпсона – в 1951 году его впервые описал британский дешифровщик и статистик Эдвард Симпсон. Парадокс распространяется не только на медианы, но и на среднее арифметическое – однако в нашем примере мы поговорим о медианах.

Предположим, что население – 11 человек. Трое из них не пошли в старшие классы и зарабатывают по 5 фунтов в год; трое окончили школу и зарабатывают по 10; трое бросили университет и зарабатывают по 15; а двое закончили бакалавриат и зарабатывают по 20 фунтов. Медианная зарплата такой популяции в целом (то есть зарплата среднего человека при таком распределении доходов, см. врезку на предыдущей странице) составляет 10 фунтов.

Потом правительство проводит кампанию по стимуляции населения к продолжению учебы в старших классах и в университетах. При этом медианная зарплата в каждой группе уменьшается на 1 фунт. Внезапно оказывается, что школу не закончили двое и они получают по 4 фунта, двое выпускников школы зарабатывают по 9, двое бросивших университет – по 14, а пять выпускников университета – по 19. В каждой группе медианная зарплата уменьшилась на 1 фунт, но у населения в целом она выросла с 10 фунтов до 14. Вот и в американской экономике в период с 2000 по 2013 год случилось нечто подобное, только в более крупных масштабах.

Такое происходит на удивление часто. Например, чернокожие американцы курят чаще, чем белые, но если разбить их на группы по уровню образования, то оказывается, что в каждой из них чернокожие курят реже. А все потому, что среди более образованных граждан, где процент курящих меньше, ниже доля чернокожих.

Или вот еще один широко известный пример. В сентябре 1973 года в аспирантуру Калифорнийского университета в Беркли подали заявки 8000 мужчин и 4000 женщин. Из них было принято 44 % мужчин и только 35 % женщин.

Но если посмотреть повнимательнее, то можно заметить: почти на всех факультетах у женщин было больше шансов поступить. Самый популярный факультет принял 82 % подавших заявки женщин и лишь 62 % мужчин; второй по популярности – 68 % женщин и 65 % мужчин.

Тут дело в том, что женщины подавали заявки на факультеты с самым большим конкурсом. На один из факультетов было подано 933 заявки, из которых 108 подали женщины. Зачислили 82 % женщин и 62 % мужчин.

В то же время на шестой по популярности факультет было подано 714 заявок, из них 341 от женщин. Здесь поступили 7 % женщин и 6 % мужчин.

Но если сложить данные по этим двум факультетам, то на них поступало 449 женщин и 1199 мужчин. Было принято 111 женщин (25 %) и 533 мужчины (44 %).

Еще раз: на каждом из факультетов в отдельности у женщин было больше шансов поступить, а на двух вместе – меньше.

Как это лучше всего представлять? Зависит от обстоятельств. В случае с зарплатами американцев можно считать медианы более информативными, потому что медианный американец стал зарабатывать больше (поскольку теперь больше американцев оканчивают колледжи и школы). А в случае с аспирантами можно говорить о том, что, какой бы факультет ни выбрала женщина, у нее больше, чем у мужчины, шансов поступить в аспирантуру. Но с таким же успехом можно говорить о том, что для людей, не окончивших школу, ситуация ухудшилась; и можно отметить, что тем факультетам, на которые хотят поступать женщины, явно не хватает ресурсов: они могут принять лишь небольшую долю подавших заявки. Беда в том, что в ситуациях парадокса Симпсона можно высказывать противоположные точки зрения – в зависимости от вашей политической позиции. Честнее всего тут было бы сообщать о наличии этого парадокса.

А теперь вернемся к коэффициенту распространения COVID-19. Он вырос, стало быть, вирус поражает больше людей, а это плохо.

Только все не так просто. Одновременно происходили две как бы отдельные эпидемии: в домах престарелых и больницах болезнь распространялась не так, как в стране в целом.

Мы не знаем точных цифр, потому что такие подробности не публиковались. Но мы можем провести мысленный эксперимент сродни описанному выше. Предположим, что в домах престарелых было 100 заболевших, а еще 100 – вне их. В среднем каждый больной в домах престарелых заражает троих, а вне их – двоих. Тогда коэффициент распространения (среднее число людей, зараженных одним носителем инфекции) равен 2,5.

Затем объявляется локдаун. Количество заболевших снижается, и R тоже снижается. Но – и это важный момент – в домах престарелых снижение не такое сильное, как вне их. Теперь в них 90 человек, каждый передает инфекцию в среднем 2,9 людей, а в стране 10 заболевших, передающих вирус в среднем одному человеку. Поэтому теперь R = 2,71. Он вырос! Но в обеих группах снизился.[4]