Игорь Шнуренко – Демон внутри. Анатомия искусственного интеллекта (страница 42)
Кроме того, компания рекомендует лишь начать обучение с синтетических данных, а в конце использовать все же некоторое количество реальных — для повышения качества распознавания образов.
Обучение моделей с ИИ на массивах синтетических данных используется в разных отраслях: в ритейле, робототехнике, в автономных автомобилях, в промышленности. К примеру, разработчики самоуправляемых электромобилей давно поняли, что просто нереально по времени наездить достаточное количество настоящих миль по всей стране и собрать достаточное количество реальных данных для того, чтобы обучить автомобили автономному вождению. Да их никто и не пустит на улицы в таком количестве и повсюду! А как обучить машину не падать с моста или с обрыва? Позволив ей пару тысяч раз упасть с моста в беспилотном режиме? Тренируйтесь себе в тупичке или сбивайте друг друга перед своим офисом по адресу 1 Hacker Way, Menlo Park, CA.
Тогда разработчики софта для электромобилей предложили гениальное решение: учить машины вождению по игре Grand Theft Auto. Ну хотя бы вначале — а последний час езды, так и быть, можно отработать на реальной дороге. По слухам, ребятам из компании Rockstar, которой принадлежит игра, это не понравилось. Может быть, они представили себя в кресле пассажира этого электромобиля. Фантазии не хватило понять, что всё это в твоем воображении, бро. В итоге разработчики софта для машин все же стали создавать для обучения целые воображаемые города, в которых их модели тупо накатывают свои воображаемые мили.
Недавно Facebook предложил свою модель машинного обучения Densepose, которая может применять спецэффекты к людям в видео. Система обучена с использованием изображений 50 тысяч людей, снятых с 5 миллионов точек и аннотированных вручную. Сразу же появился некий стартап, который стал синтезировать данные по тому же принципу, что и Densepose, и на базе продукта ««Фейсбука»» сделал свой собственный, с синтетическими изображениями.
Примерно как индийский завод по производству дженериков, который копирует таблетки фирмы Pfizer, не беспокоясь по поводу лицензий.
Не то чтобы такое копирование разрешено или одобряется, но на подобные действия мелких компаний именно в этой области — машинного обучения — большие игроки пока что закрывают глаза. Когда у стартапа особо нет денег и нет данных, стратегия «взять это у больших ребят» считается вполне законной. Если данные — это новая нефть, то такой подход можно сравнить с возгонкой биодизельного топлива в своем дворе. Кустарно, пованивает, может, не очень качественно, но, с молитвой, машина поедет.
Самый модный прием машинного обучения в кругах разработчиков софта на синтетических данных —это GANs (генеративно-состязательные сети, generative adversarial networks). С их помощью довольно быстро, например, можно создать реалистические картинки.
Этой техникой пользуется и художник Макс Клингеман, который в 2016 году был резидентом Гугловского института искусств в Париже (есть уже и такой). С помощью GANs он создал интерактивную онлайн-инсталляцию, которая использует распознавание образов, чтобы найти сходство между любыми двумя изображениями. В нейросеть заводятся оба изображения, к примеру, древнеримской скульптуры и автопортрет Фриды Кало, и алгоритм находит некие общие связи между этими изображениями, выдавая на выходе нечто напоминающее и то, и другое. Свою технику Клингеман назвал тоже по-модному, «нейрографией».
Сколько на своей нейрографии заработал Клингеман, мы не знаем, но израильский стартап DataGen присылает счета на семизначные суммы за услугу по генерированию под заказ видеоданных синтетических — симулированных — фейковых — рук. Руки, Карл! Выглядят страшновато, но для обучения компьютера пойдут.
Ведь самое главное — это чтобы в изображение поверил не человек, а компьютер.
Идею использования фейковых данных для обучения подхватили и сами мегакорпорации, у которых вроде бы денег куры не клюют. Гугл уже обучает роботов жить и строить в симулированных мирах, a Microsoft в 2017 году опубликовал работу своих исследователей в области машинного перевода с левантийского диалекта арабского языка на английский, в которой те использовали два миллиона синтетических предложений, созданных специально для обучения переводчика компьютером. Можно только догадаться, из каких компьютерно-левантийских ругательств состояли эти фейковые предложения, но ученые пишут, что в результате качество перевода улучшилось.
Компания Apple, если сказать мягко, не спешит делиться результатами своих исследований, но и она проявила интерес к использованию фейковых данных. В 2016 году сотрудники этой компании опубликовали в научном журнале результаты исследований по генерации реалистических изображений глаз для улучшения качества работы программы, цель которой — понять, смотрит ли человек в данную точку или нет. В этом исследовании использовались синтетические, а проще говоря, фейковые данные.
А через год компания выпустила новую модель iPhone X, которая разблокируется, уловив, что на нее смотрит пользователь, и распознав хозяина айфона по лицу. В разработке айфона этой модели участвовали те же самые исследователи, что и в той опубликованной научной работе, поэтому логично сделать вывод, что Apple применяла фейковые данные для обучения системы ИИ для этого устройства. Такой вывод сделал бы и сам Витгенштейн, будь он жив, не правда ли? В самом исследовании говорится, что лучше всего работает комбинированный подход, когда часть данных реальная, а часть синтезируется компьютером. Детищу Стива Джобса неохота признавать, что в машинном обучении своего искусственного интеллекта они используют фейки, но кто покажет на них пальцем? Они хотя бы не переводят с левантийского.
Да и в робототехнике синтетические данные активно применяются. Компания Waymo, принадлежащая конгломерату Alphabet (ему также с 2015 года принадлежит Google и его дочерние предприятия), также пользуется синтетическими данными. Их автономные автомобили наездили миллионы миль на реальных дорогах, но алгоритмы контроля обучались на миллиардах миль компьютерных симуляций.
Исследователи лаборатории OpenAI, основанной Илоном Маском вместе с Сэмом Альтманом, тоже обучают роботов в симулированном мире. Например, алгоритм может окрасить в фейковом мире предметы или задать им определенные свойства поверхности с тем, чтобы робот мог тренироваться «хватать» предметы разной фактуры и цвета.
«МАШИННОЕ ОБУЧЕНИЕ ДЛЯ БЕДНЫХ»
Все больше разработчики занимаются также трансферным обучением — transfer learning. Это тоже своего рода «машинное обучение для бедных», когда вы используете и не свои данные. Модель можно начать обучать с нуля, с абсолютно случайных значений, а можно вместо этого взять совершенно, по сути, любую чужую разработку, чужую уже обученную сеть, и начать свое обучение с нее. Хуже не будет, вам все равно нужны какие-то данные, а так, глядишь, удастся сэкономить время. Вдруг ваша модель войдет в резонанс с чужой, наподобие того, как Фрида Кало в модели художника Клингермана выходит на одну волну со скульптурой римлянки?
В последних трендах машинного обучения не только фейковые массивы данных, но и люди — настоящие, солидные, вовсе не фейковые люди. Они со всем тщанием обучают по видео роботов — настоящих, не фейковых роботов.
A Google уже начал обучать искусственный интеллект обучать искусственный интеллект.
ФАКТОР Д
УСТРОЙСТВО ВСЕЛЕННОЙ ВКРАТЦЕ
Голландская компания «Дросте» с 1900 года выпускает баночки с какао, на которых изображена монашенка, которая держит в руке баночку, на которой изображена монашенка, которая держит баночку, и так до бесконечности.
Двадцать пять коммивояжеров, распространявших товар компании по всей Голландии, не знали, что художник Ян Миссе в этой рекламе пародировал триптих Джотто, сделанный по заказу кардинала Стефанески. Слева в центральной части триптиха, который находится сейчас в Пинакотеке Ватикана, изображен коленопреклоненный кардинал Стефанески, который протягивает Святому Петру копию триптиха, на которой коленопреклоненный кардинал Стефанески протягивает Святому Петру копию триптиха и так далее.
Компания и сейчас выпускает свой шоколад и продает какао по всему миру, а описанный эффект так и называется «эффект Дросте» —хотя в России его бы назвали «сказка про белого бычка».
Великий польский писатель и футуролог Станислав Лем блестяще обыграл эффект Дросте в романе «Звездные дневники Ийона Тихого», где на одной из планет герой безуспешно пытается выяснить, что же такое сепульки, о которых вокруг так много разговоров. Сначала он спрашивает местного жителя, который ему отвечает: «сепульки очень похожи на муркви, а своей цветовой гаммой напоминают мягкие пчмы. Разумеется, их практическая функция другая, но думаю, вам, как человеку взрослому, мне не нужно этого объяснять». Ничего не поняв, герой лезет в словарь, где читает: «сепульки — важный элемент цивилизации ардри-тов (см.) с планеты Энтеропия (см.). См. Сепулькарии». Он следует этому совету и читает: «Сепулькарии — устройства для сепуления (см.)». В статье «сепуление» значится: «Сепуление — занятие ардритов (см.) с планеты Энтеропия (см.). См. Сепульки».