Мадумита Мурджия – Кодозависимые. Жизнь в тени искусственного интеллекта (страница 5)

Шрифт

После обеда столовая быстро опустела. Я тоже вернулась на этаж, где происходит разметка данных. Один юноша просматривал десятки фотографий зданий со всего мира, оценивая, старинные на них постройки или современные. Он также проходился по нескольким пунктам, описывая каждое изображение: его настроение, насыщенность, резкость и тон. Щелк, щелк, щелк. У него на экране я увидела изображение древнего японского буддистского храма в Токио, стоящего за телеграфной вышкой. Он решил, что на картинке есть и старина, и современность, и выбрал соответствующий вариант.

Как я узнала позже, каждый щелчок помогает обучать алгоритмы, которые классифицируют изображения для платформы Material Bank, где можно искать и заказывать образцы архитектурных и дизайнерских материалов. Цель состоит в том, чтобы создать объективный инструмент для поиска наиболее релевантной информации. В итоге, когда вам понадобится найти конкретный строительный материал или архитектурный стиль, алгоритм будет выдавать вам идеальную подборку полезных примеров.

Как сотрудник понимает, что правильно разметил данные? «Иногда это бывает нелегко, – говорит он. – Тогда приходится полагаться на чутье».

Призрак в машине

В стремлении к созданию разумных машин со сверхчеловеческими способностями нет ничего нового. В одной еврейской легенде, возникшей в начале XX века, рассказывается о Големе – бездушном гуманоиде, в которого пражский раввин Лёв вдохнул жизнь, чтобы защитить местных евреев от антисемитских гонений.

Легко предугадать, что случилось дальше: Голем вышел из-под контроля, и его создателю пришлось уничтожить собственное детище. Эта история перекликается с «Франкенштейном» Мэри Шелли, одним из первых современных романов в жанре научной фантастики, а также с последними новостями об ИИ, в которых все чаще высказываются опасения, связанные с тем, что однажды ИИ может стать неуправляемым.

Существующий сегодня ИИ – скорее не автономная, а вспомогательная технология. Примерно с 2009 года технологический бум подпитывается огромными объемами данных, которые генерируются при нашем интенсивном использовании подключенных к сети устройств и интернета, а также растущей мощностью кремниевых микросхем. В частности, это привело к активному развитию подтипа ИИ, называемого машинным обучением, и в свою очередь его разновидности, глубокого обучения – широких классов методов, с помощью которых компьютерные программы учатся находить статистические взаимосвязи в огромных наборах данных, будь то слова, числа, изображения или строки кода.

Один из способов обучать ИИ-модели выявлять закономерности состоит в том, чтобы показывать им миллионы размеченных примеров. Для этого людям необходимо тщательно аннотировать все используемые данные, чтобы компьютеры могли их проанализировать. Без этого алгоритмы, лежащие в основе беспилотных автомобилей и систем распознавания лиц, останутся слепыми. Они не увидят закономерностей в данных.

Сегодня созданные подобным образом алгоритмы помогают людям принимать решения – или принимают их самостоятельно – в таких сферах, как медицина, уголовное право, общественное благосостояние, ипотечное и потребительское кредитование. Новейший тип ИИ-программ – порождающий ИИ – создает слова, картинки и код. Это превращает ИИ-системы в творческих ассистентов, которые помогают учителям, финансистам, адвокатам, художникам и программистам, становясь их соавторами.

Разрабатывая ИИ, ведущие компании Кремниевой долины конкурируют за лучших специалистов в области компьютерных технологий и платят сотни тысяч долларов молодым кандидатам наук. Но чтобы обучать свои системы и внедрять их в эксплуатацию с помощью реальных данных, эти же корпорации обращаются к таким компаниям, как Sama, где работают целые армии низкооплачиваемых сотрудников, которые обладают базовой цифровой грамотностью, но не имеют стабильной занятости.

Sama не единственная подобная компания в мире. В этой растущей отрасли, капитализация которой к 2030 году, как ожидается, достигнет 17 трлн долларов, работают такие стартапы, как Scale AI, Appen, Hive Micro, iMerit и Mighty AI (которым теперь владеет Uber), а также более традиционные ИТ-компании, включая Accenture и Wipro{10}.

В силу огромного объема данных, которые необходимо разметить ИИ-компаниям, большинство стартапов привлекают рабочую силу из стран, где труд стоит дешево. В результате сотни работников вроде Иэна и Бенджи сортируют и интерпретируют данные, которые затем используются для обучения ИИ-систем.

Вынужденные покинуть свою страну сирийские врачи тренируют медицинские программы, которые помогают диагностировать рак простаты в Британии. Выпускники венесуэльских колледжей, которые не могут найти работу из-за охватившей страну рецессии, сортируют модные товары для интернет-магазинов{11}. Обездоленные женщины из бедного мусульманского района Метиабруз в Калькутте размечают голосовые сообщения для умной колонки Amazon Echo{12}. Своей работой они раскрывают и без того довольно очевидный секрет так называемых систем искусственного интеллекта – технологии не «учатся» самостоятельно, а нуждаются в миллионах людей, которые их на самом деле обучают. Специалисты по обработке данных – бесценные человеческие звенья во всемирной цепочке процессов по разработке и обучению ИИ.

Эта рабочая сила по большей части атомизирована и состоит из самых уязвимых членов общества: социально незащищенной молодежи, женщин с детьми и прочими иждивенцами, меньшинств, мигрантов и беженцев. ИИ-компании и подрядчики, которых они привлекают к сотрудничеству, заявляют, что стремятся включить эти группы в процесс цифровой революции, давая им стабильную и этичную работу, несмотря на их уязвимость. Однако, как я обнаружила, специалисты по обработке данных защищены не более, чем заводские рабочие, их труд остается за кадром, а их заслуги недооцениваются, хотя именно они закладывают фундамент для всей сферы ИИ{13}.

Сегодня это сообщество выходит из тени, и журналисты вместе с учеными начинают понимать, как разбросанные по всему миру работники влияют на нашу повседневную жизнь: чрезвычайно популярный контент, создаваемый чат-ботами вроде ChatGPT, контент, который мы пролистываем в приложениях TikTok, Instagram и YouTube, товары в интернет-магазинах, наши автомобили, даже наша еда – все сортируется, размечается и классифицируется силами специалистов по обработке данных.

Аргентинская исследовательница Милагрос Мисели, работающая в Берлине, изучает этнографию работы с данными в развивающихся странах. Когда она только приступила к исследованию, она не нашла никакой информации об опыте работников ИИ – ни о том, кто занят в этой сфере, ни о том, в чем состоят их задачи. «Как социолог, я увидела провал, – говорит она. – Почти никто не интересуется этими людьми. Кто они? Как они выполняют свою работу? Чем конкретно они занимаются? В каких условиях трудятся?»

Мисели была права – оказалось очень трудно найти компанию, которая разрешила бы мне поговорить со специалистами по обработке данных при минимальном посредничестве руководства. Конфиденциальность часто прописана в контрактах сотрудников в форме соглашений о неразглашении, которые запрещают им напрямую общаться с клиентами и раскрывать информацию о том, кому предоставляют услуги их работодатели. Например, компания Meta, владеющая Facebook, пользуется услугами Sama и просит сотрудников подписывать соглашения о неразглашении. Специалисты по обработке данных зачастую даже не знают, кто их клиент, с какой алгоритмической системой они работают и сколько получают за такой же труд их коллеги из других стран.

В силу специфики своей работы компании вроде Sama, которые платят низкие зарплаты, вынуждают сотрудников соблюдать конфиденциальность и нанимают людей из уязвимых социальных групп, по сути, эксплуатируют неравенство. В конце концов, им нужна дешевая рабочая сила. Хотя в некоторой степени подобная работа позволяет меньшинствам и молодежи из трущоб почувствовать уверенность в себе и обрести надежду на будущее, не стоит забывать, что платят им довольно мало, а сами они не имеют ни возможности диктовать свои условия, ни рычагов давления, ни ресурсов для протеста.

Даже сама цель работы по разметке данных кажется циничной: эти данные используются для обучения ИИ-систем, которые в конце концов заменят именно тех людей, которые обучают их сегодня. Однако за последние два года я побеседовала с десятками работников, и никто из них не осознавал последствия обучения систем, которые в итоге смогут их заменить, и не догадывался, что им платят за ускорение их собственного ухода с рынка.

«Этим людям так нужна работа, что они покорно выполняют все требования клиента. Они согласны не искать в своих задачах смысл и закрывать глаза на этические вопросы. Их учат думать лишь о том, что может понадобиться клиенту», – объяснила мне Мисели. Разработка ИИ – бурно растущий бизнес, и компании, работающие в сфере аннотирования данных, наперегонки снижают цены на свои услуги, снабжая рабочей силой гигантские корпорации и дерзкие стартапы, с которых они берут по несколько центов за задачу.

«Об этом нужно говорить: технологическая отрасль растет благодаря дешевой рабочей силе и наживается на ней».

4 5 6 7 Вперед