18+
реклама
18+
Бургер менюБургер меню

Endy Typical – Анализ Данных и Статистики (страница 1)

18

Endy Typical

Анализ Данных и Статистики

ГЛАВА 1. 1. Природа данных: как реальность превращается в числа и почему это всегда искажение

Ткань реальности и нити измерений: почему любая цифра это уже компромисс с истиной

Ткань реальности не соткана из чисел, хотя именно к ним мы так часто стремимся свести её сущность. Каждое измерение, каждая цифра, каждая статистическая величина это не отражение истины, а лишь её тень, отброшенная на стену пещеры нашего восприятия. Мы привыкли верить, что числа точны, объективны, неоспоримы, но на самом деле любая цифра это уже компромисс, результат сложного взаимодействия между тем, что существует на самом деле, тем, что мы способны заметить, и тем, как мы решаем это замеченное зафиксировать. Чтобы понять, почему данные всегда искажают реальность, нужно начать с осознания того, что реальность сама по себе многомерна, текуча и неуловима, а любая попытка её измерить это акт насильственного упрощения.

Представьте себе реку. Она никогда не бывает одной и той же: вода постоянно движется, меняется её температура, скорость течения, состав растворённых в ней веществ. Если вы захотите измерить её ширину, то столкнётесь с первой проблемой где именно провести границу? Берега не идеально ровные, вода то подмывает их, то отступает, и даже если вы выберете конкретную точку, ваше измерение будет зависеть от того, на каком уровне воды вы его проводите. А если вы захотите измерить глубину, то обнаружите, что она разная в разных местах, и даже в одной точке может меняться со временем. Теперь представьте, что кто-то попросит вас дать "среднюю глубину" этой реки. Каким будет этот показатель? Средним арифметическим всех измерений? Но как их провести через равные промежутки? А если река делает изгиб, и в одном месте она глубже, чем в другом? А если вы измерите глубину только в тех местах, где удобно это сделать, например, с моста, то ваша "средняя глубина" будет отражать не реальность реки, а лишь те её участки, которые оказались доступны вашему инструменту.

Этот простой пример показывает, что любое измерение начинается с выбора выбора точки отсчёта, выбора метода, выбора масштаба. И каждый из этих выборов уже содержит в себе искажение. Реальность не делится на удобные для измерения фрагменты; мы сами дробим её на части, чтобы сделать хоть сколько-нибудь постижимой. Но в процессе этого дробления неизбежно теряется нечто важное контекст, взаимосвязи, динамика. Число, которое мы получаем в итоге, это не истина, а лишь её проекция на плоскость нашего понимания.

Возьмём другой пример измерение температуры воздуха. Казалось бы, что может быть проще: термометр показывает одно число, и это число должно быть объективным. Но даже здесь реальность сопротивляется нашим попыткам её упростить. Температура воздуха неодинакова на разной высоте, в тени и на солнце, в городе и за его пределами. Если вы повесите термометр на стене дома, он будет нагреваться от солнечных лучей, и его показания будут завышены. Если вы установите его в тени, он будет показывать температуру воздуха, но не учтёт влажность, которая влияет на ощущение тепла. А если вы захотите узнать "среднюю температуру" за день, то столкнётесь с вопросом: как её считать? Среднее арифметическое всех измерений, проведённых с равными интервалами? Но ночью температура обычно ниже, чем днём, и если вы проведёте больше измерений в тёмное время суток, ваша "средняя температура" будет занижена. А если вы захотите сравнить температуру в разных городах, то обнаружите, что даже стандартные метеостанции расположены по-разному: одна может находиться в центре города, где асфальт и здания создают "остров тепла", а другая за городом, где воздух чище и прохладнее.

Каждое из этих решений где установить термометр, как часто снимать показания, как усреднять данные это компромисс. И каждый компромисс уводит нас дальше от реальности, какой она является на самом деле. Мы не измеряем температуру воздуха; мы измеряем температуру в конкретной точке, в конкретное время, с помощью конкретного инструмента, и называем это "температурой". Но это название лишь удобный ярлык, за которым скрывается сложная и неоднородная реальность.

Эта проблема не ограничивается физическими измерениями. Возьмём экономические данные например, уровень безработицы. Казалось бы, это простой показатель: количество людей, не имеющих работы, делённое на количество людей в трудоспособном возрасте. Но даже здесь реальность оказывается гораздо сложнее. Кого считать безработным? Того, кто не работает ни одного часа в неделю? Или того, кто работает неполный день, но хотел бы работать полный? А как быть с теми, кто отчаялся найти работу и перестал её искать? Их обычно не включают в статистику безработицы, но они всё ещё не имеют работы. А как учитывать тех, кто работает неофициально, без трудового договора? Их доходы не попадают в статистику, но они всё равно существуют.

Методология подсчёта безработицы варьируется от страны к стране. В одних странах безработными считаются только те, кто зарегистрирован в службе занятости, в других те, кто активно ищет работу. В одних странах в трудоспособный возраст включают людей с 15 до 64 лет, в других с 16 до 60. И даже если методология одинакова, данные могут собираться по-разному: в одних странах проводят выборочные опросы населения, в других анализируют данные из налоговых деклараций. В результате "уровень безработицы" в 5% в одной стране может означать совсем не то же самое, что "уровень безработицы" в 5% в другой.

Это не значит, что данные бесполезны. Напротив, они необходимы для понимания мира и принятия решений. Но они всегда являются упрощением, моделью, а не самой реальностью. И ключ к их правильному использованию не в том, чтобы верить в их абсолютную точность, а в том, чтобы понимать, какие компромиссы были сделаны при их создании.

Любое измерение начинается с определения того, что именно мы хотим измерить. Но это определение уже содержит в себе субъективность. Возьмём такой показатель, как "качество жизни". Что это такое? Удовлетворённость жизнью? Доступность медицинской помощи? Уровень образования? Экологическая обстановка? Все эти аспекты важны, но как их взвесить? Если вы решите, что качество жизни на 50% зависит от дохода, на 30% от здоровья и на 20% от образования, то ваш показатель будет отражать именно эту пропорцию. Но кто сказал, что она правильная? Для одного человека здоровье важнее денег, для другого наоборот. И даже если вы проведёте опрос и выясните, что большинство людей считают здоровье важнее дохода, это всё равно будет лишь усреднённое мнение, которое не учитывает индивидуальные различия.

Проблема в том, что реальность не структурирована так, чтобы её можно было легко измерить. Она не состоит из отдельных, чётко разграниченных параметров, которые можно оценить по отдельности. Напротив, всё в реальности взаимосвязано: доход влияет на здоровье, здоровье на образование, образование на доход. И эти связи нелинейны: увеличение дохода на 10% не обязательно приводит к улучшению здоровья на 10%, а улучшение здоровья на 10% не обязательно приводит к повышению уровня образования на 10%. Когда мы пытаемся измерить что-то одно, мы неизбежно игнорируем эти взаимосвязи, и наше измерение становится неполным.

Ещё одна проблема заключается в том, что любое измерение зависит от инструмента, который мы используем. Термометр показывает температуру, но не показывает влажность. Линейка измеряет длину, но не учитывает кривизну поверхности. Анкета измеряет мнения людей, но не учитывает их эмоциональное состояние в момент заполнения. Каждый инструмент имеет свои ограничения, и эти ограничения становятся частью данных, которые мы получаем. Если вы измеряете уровень счастья с помощью анкеты, где нужно поставить оценку от 1 до 10, то ваши данные будут зависеть от того, как люди интерпретируют эти цифры. Для одного человека 7 это высокая оценка, для другого средняя. И даже если все респонденты понимают шкалу одинаково, их ответы будут зависеть от того, в каком настроении они находятся в момент заполнения анкеты.

Наконец, любые данные всегда собираются с определённой целью. Экономические показатели нужны для принятия решений в области экономической политики. Медицинские данные для диагностики и лечения. Социологические опросы для понимания общественных настроений. И эта цель влияет на то, какие данные собираются и как они интерпретируются. Если вы хотите доказать, что безработица снижается, вы можете выбрать такой метод её подсчёта, который будет показывать снижение. Если вы хотите доказать, что качество жизни улучшается, вы можете включить в свой индекс те показатели, которые растут, и исключить те, которые падают. Данные не лгут, но они всегда рассказывают только часть истории ту часть, которую мы решили в них включить.

Понимание того, что любая цифра это компромисс с истиной, не должно приводить к цинизму или отказу от использования данных. Напротив, оно должно делать нас более внимательными и критичными. Когда мы видим число, мы должны задавать себе вопросы: как оно было получено? Какие решения были приняты при его создании? Какие аспекты реальности оно игнорирует? Какие компромиссы были сделаны? Только тогда мы сможем использовать данные осмысленно, не принимая их за абсолютную истину, но и не отвергая их как бесполезные.