Алекс Дж. Гатман – Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт (страница 2)
Тем временем промышленный комплекс науки о данных штампует новые концепции быстрее, чем мы можем определить и сформулировать порождаемые ими возможности (и проблемы). Стоит моргнуть, и обязательно что-нибудь пропустишь. Когда авторы этой книги начали работать вместе, все говорили о больших данных. Со временем популярной новой темой стала наука о данных. Затем внимание общественности сосредоточилось на машинном обучении, глубоком обучении и искусственном интеллекте.
Но самых любознательных и критически мыслящих из нас что-то не устраивает. Действительно ли эти проблемы новые? Или они просто переосмысление старых?
Ответ на оба вопроса утвердительный.
Однако мы надеемся, что вы задаетесь более важным вопросом – «Как научиться критически мыслить и говорить о данных?»
Мы вас этому научим.
В этой книге вы познакомитесь с инструментами, терминами и образом мышления, необходимыми для навигации по промышленному комплексу науки о данных. Вы научитесь понимать данные и связанные с ними проблемы на более глубоком уровне, критически относиться к данным и результатам, с которыми сталкиваетесь, а также разумно говорить обо всем, что касается данных.
Короче говоря, вы станете главным по данным.
Почему нам это важно
Прежде чем мы начнем, стоит сказать, почему авторов этой книги, Алекса и Джордана, так волнует эта тема. В этом разделе мы опишем два важных примера того, как данные повлияли на общество в целом и на нас лично.
Мы едва закончили колледж, когда разразился кризис субстандартного ипотечного кредитования. Мы оба устроились на работу в ВВС в 2009 году, когда найти работу было очень трудно. Нам повезло, поскольку мы обладали востребованным навыком – мы умели работать с данными. Мы каждый день работали над преобразованием результатов исследований, проведенных аналитиками и учеными ВВС, в продукты, которые могло бы использовать правительство. Наш прием на работу стал предвестником грядущего роста важности тех ролей, которые мы исполняли. Будучи специалистами по работе с данными, мы наблюдали за развитием ипотечного кризиса с интересом и любопытством.
У кризиса субстандартного ипотечного кредитования было множество причин[3]. Приводя его здесь в качестве примера, мы не отрицаем прочие факторы, однако, по нашему мнению, важнейшим из них была серьезная проблема с данными. Банки и инвесторы создали модели для оценки ценности обеспеченных ипотекой долговых обязательств (CDO) – инвестиционных инструментов, ставших причиной обвала рынка США.
Облигации с ипотечным покрытием считались безопасными инструментами, поскольку распределяли риск дефолта по кредиту между несколькими инвестиционными единицами. Идея заключалась в том, что если лишь некоторые активы в портфеле ипотечных кредитов окажутся убыточными, это не окажет существенного влияния на стоимость всего портфеля.
И все же, если поразмыслить, становится очевидно, что некоторые фундаментальные предположения были неверны. В первую очередь речь идет о допущении независимости между возможными дефолтами, то есть предположении о том, что если заемщик А не выполнит обязательства по кредиту, это не повлияет на риск неплатежа заемщика Б. Впоследствии мы узнали о том, что дефолты происходят по принципу домино, то есть предыдущий дефолт может предсказать вероятность дальнейших дефолтов. Дефолт по одному ипотечному кредиту приводил к снижению стоимости находящейся поблизости недвижимости, что способствовало росту риска дефолта по соответствующим кредитам. По сути, один дом утягивал за собой соседние.
Допущение независимости фактически связанных между собой событий – распространенная ошибка в статистике.
Но давайте углубимся в эту историю. Инвестиционные банки создали модели, которые переоценили эти инвестиции. Модели, о которых мы поговорим далее в книге, – это упрощенные версии реальности. Они используют предположения о реальном мире для понимания и предсказания определенных явлений.
А кто создавал эти модели? Это были люди, которые заложили основы будущей профессии дата-сайентиста. Люди вроде нас. Статистики, экономисты, физики – люди, которые занимались машинным обучением, искусственным интеллектом и статистикой. Они работали с данными. И они были умны. Невероятно умны.
И все же что-то пошло не так. Может быть, они не сумели задать правильные вопросы? Или информация о риске и неопределенности не была должным образом донесена до лиц, принимающих решения, в результате чего у них возникла иллюзия совершенно предсказуемого рынка недвижимости? А может быть, кто-то откровенно соврал о результатах?
Но больше всего нас интересовало то, как избежать подобных ошибок в нашей собственной работе?
У нас было много вопросов, и об ответах мы могли лишь гадать, но одно было ясно – это была крупномасштабная катастрофа с данными. И она обещала быть не последней.
8 ноября 2016 года кандидат от республиканцев Дональд Дж. Трамп победил на всеобщих выборах в Соединенных Штатах, обойдя предполагаемого лидера и кандидата от демократической партии Хиллари Клинтон. Для политических социологов это стало настоящим шоком, поскольку их модели не предсказывали его победу. А год был самым подходящим для подобных предсказаний.
В 2008 году Нейт Сильвер, автор блога FiveThirtyEight, тогда бывшего частью газеты
К этому моменту деловой мир уже начал осваивать работу с данными и нанимать дата-сайентистов. Успешное предсказание переизбрания Барака Обамы Нейтом Сильвером лишь подчеркнуло важность и оракулоподобные возможности прогнозирования на основе данных. Статьи в деловых журналах предостерегали руководителей о том, что если они не освоят работу с данными, то проиграют в конкурентной борьбе. Промышленный комплекс науки о данных заработал в полную силу.
К 2016 году каждое крупное новостное издание вложило средства в алгоритм предсказания исхода всеобщих выборов. Подавляющее большинство из них прогнозировали сокрушительную победу кандидата от демократической партии Хиллари Клинтон. Как же они ошибались.
Давайте сравним эту ошибку с кризисом субстандартного ипотечного кредитования. Можно было бы утверждать, что мы многому научились и что интерес к науке о данных должен был бы позволить избежать ошибок прошлого. Действительно, начиная с 2008 года, новостные организации стали нанимать дата-сайентистов, вкладывать средства в проведение опросов общественного мнения, формировать команды аналитиков и тратить большое количество денег на сбор качественных данных.
Что же произошло, учитывая все это время, деньги, усилия и образование?[4]
Почему возникают подобные проблемы с данными? Мы видим три причины: сложность проблемы, недостаток критического мышления и плохая коммуникация.
Во-первых (как мы уже говорили), работа с данными зачастую очень сложна. Даже при наличии большого количества данных, подходящих инструментов, методик и умнейших аналитиков случаются ошибки. Прогнозы могут и будут оказываться ошибочными. И это не критика данных и статистики. Такова реальность.
Во-вторых, некоторые аналитики и заинтересованные стороны перестали критически относиться к проблемам данных. Промышленный комплекс науки о данных в своем высокомерии нарисовал картину уверенности и простоты, и некоторые люди на нее купились. Возможно, такова человеческая природа: люди не хотят признавать, что не знают будущего. Однако ключевым аспектом правильного осмысления и использования данных является признание возможности принятия неверного решения. Это означает понимание и распространение информации о рисках и неопределенностях. Но эта идея где-то затерялась. Мы надеялись, что колоссальный прогресс в исследованиях и методах анализа и работы с данными обострит критическое мышление каждого человека, но, судя по всему, некоторые люди его, наоборот, отключили.
Третья причина возникновения проблем с данными, по нашему мнению, – плохая коммуникация между дата-сайентистами и лицами, принимающими решения. Даже при наличии самых лучших намерений результаты зачастую доносятся с искажениями. Лица, принимающие решения, не говорят на языке данных, потому что никто не удосужился их этому научить. Кроме того, специалисты по работе с данными далеко не всегда способны понятно объяснить те или иные вещи. Итак, существует пробел в общении.
Данные на рабочем месте
Ваши проблемы с данными, скорее всего, не грозят обрушением мировой экономики или неправильным предсказанием результатов следующих президентских выборов в США, но контекст этих историй имеет значение. Если недопонимание и ошибки в критическом мышлении случаются на глазах у всего мира, то, вероятно, это происходит на вашем рабочем месте. В большинстве случаев эти микросбои укрепляют культуру безграмотности в отношении данных.
Это происходило и на нашем рабочем месте и отчасти по нашей вине.