Лев Наумов – Муза и алгоритм. Создают ли нейросети настоящее искусство? (страница 5)

Шрифт

Сам факт существования инструментов искусственного интеллекта, применяемых в литературе, мог бы и дальше никого особенно не волновать, оставаясь обсуждаемым лишь в среде профессионалов, если бы компания OpenAI не сделала ChatGPT достоянием широкой общественности. Ключевую роль в этом сыграл пользовательский интерфейс чата, понятный каждому человеку, умеющему обращаться с компьютером или смартфоном. Примерно в то же время на авансцену вышли и рисующие нейронные сети, которые по текстовым запросам (промптам, как их принято называть) стали создавать изображения. Тогда искусственный интеллект заговорил с людьми на таинственном, а значит, немного пугающем или хотя бы настораживающем языке визуальных образов.

Если читатель этих строк до сих пор не пробовал нарисовать что-либо в одной из нейросетей… Да, сам глагол “рисовать” может показаться спорным, но, чтобы не утонуть в кавычках и экивоках, давайте придерживаться именно такого вокабуляра. Итак, если читатель никогда не пробовал, автор настоятельно рекомендует сделать это прямо сейчас. Поскольку вашему покорному слуге неизвестно, какой на дворе год и какие средства доступны вам в данный момент, приводить ссылки вряд ли имеет смысл. Заметим лишь, что подавляющее большинство иллюстраций в настоящей книге было сгенерировано с помощью нейросети Midjourney. В отдельных случаях использовались Leonardo, Stable Diffusion разных версий, Blue Willow, Dall-E, Playground AI, Invoke AI и другие.

Более того, даже тексты запросов, породивших иллюстрации, приводить почти нет смысла – мы будем делать это лишь в тех случаях, когда важно пояснить принципы общения с моделью или особенности синтаксиса промптов. Кстати, общаться будем на английском языке. Причина тому банальна: лучшие сети тренировались именно на нём, а значит, результаты окажутся качественнее и точнее. Однако никакой проблемы для тех, кто не владеет языком, здесь нет: запросы можно переводить с помощью онлайн-переводчиков, в том числе и тех, которые тоже используют нейросети, вроде DeepL Translator[13].

Сопровождать иллюстрации промптами имело бы смысл, если бы они позволяли воспроизводить результаты, но это не так. Во-первых, большинство моделей на каждый запрос генерирует несколько вариантов произведений на выбор. Как правило, “выдача” состоит из четырёх изображений, и далеко не всегда мы будем приводить их все. А во-вторых, ни одна нейросеть никогда не повторяется. В случае очень чёткого и детерминированного задания можно представить себе ситуацию, в которой рисунки окажутся однотипными, а их сходства – очевидными, но всё же каждый останется уникальным. Вот пример (см. илл. 2) множества картинок, полученных по почти идентичным запросам. Первые четыре – это цельная выдача нейросети Midjourney на промпт “14th century villain who won the game”, то есть “злодей XIV века, который выиграл”. Для запуска генерации приведённые слова должны предваряться командой “/imagine”. Вторые четыре изображения получены по запросу “15th century villain who won the game”, потом – “16th century villain who won the game” и так далее до XXV столетия.

Заметим, что получить все эти картинки разом можно было по мультизапросу “{14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25}th century villain who won the game”, но это – для понимания синтаксиса промптов, не более. Ещё несколько практических замечаний: век лучше указывать арабскими цифрами, не римскими. Также рекомендуется избегать излишних артиклей, особенно “a”, поскольку мера неопределённости для нейросети значения не имеет.

Вглядимся в лица злодеев. Безусловно, все они разные – нет двух одинаковых как внутри отдельной выдачи, так и в целом, если рассмотреть каждое из сорока восьми изображений. В то же время очевидны некие общие качества: шрамы, возраст (мы вовсе не просили пожилого человека, но юного нам модель не предложила), спокойное или ироничное выражение лица (вплоть до клоуна или безумца), признаки власти или игры… Более того, наш незатейливый запрос позволил выявить стереотипные представления нейросети о некоем “литературном зле” в разные исторические периоды. Достаточно проследить хотя бы за одной деталью – головными уборами: монаршая корона XIV века обретает черты шутовского колпака в XV. Далее – шляпа вельможи, которая в XVII столетии уже невообразима без полей. Тогда же появляются и парики, без которых в XVIII веке злодей непредставим. XIX – время цилиндров, которые в XX постепенно уходят, хотя один вариант и дотягивает до XXI. “Современные” мерзавцы имеют признаки технократии, граничащей со стимпанком. Головные уборы – будь то цилиндр или корона – явно футуристические. Начиная с XXII века нейросети трактуют эпоху как условное “будущее” и злодеи утрачивают определённые человеческие черты (за исключением одного в XXIV столетии), походя больше на героев фантастических фильмов и компьютерных игр, что, в свою очередь, ничуть не удивительно, поскольку в ходе образования сеть наверняка получала и их портреты. Недаром великий Марк Ротко говорил: “Картина не изображает некий опыт, но является опытом”. Теми же причинами объясняются и рекуррентные черты вампира (главным образом уши), Джокера и кого-то вроде Шиннока из саги “Mortal Kombat”.

Абстрагируясь от черт, сфокусируем внимание на том, сколь полученные результаты, в сущности, разнообразны. Как же так выходит, что нейросети не повторяются? Это связано с самим принципом генерации картин с помощью так называемых диффузионных моделей. Изображения возникают из начальных условий, представляющих собой “белый шум”. Грубо говоря, на первом шаге каждая точка имеет случайный цвет. Функционирование нейросети заключается в том, что она последовательно реализует “цветовую диффузию” или удаление шума для того, чтобы “восстановить” из данного изображения ту картину, которая соответствовала бы текстовому запросу. Некоторые модели даже показывают ход этого процесса – результат последовательно проступает из мутного небытия. В каком-то смысле происходит фантастическая реставрация – восстановление того, чего не было. Однако именно здесь и кроется ответ: все итоговые изображения разные, потому что они получены из разных начальных условий. А вероятность того, что генерируемое случайным образом начальное состояние картины повторится, несколько меньше количества частиц во Вселенной[14].

Наконец, третья причина того, почему приводить запросы бессмысленно, состоит в следующем: используемые модели находятся в непрерывном развитии. Они постоянно обучаются, корректируются, оптимизируются. В ходе работы над настоящей книгой у автора этих строк случилась длительная поездка, и он не пользовался Midjourney на протяжении трёх недель. При этом уже было заготовлено некоторое количество промптов, ждавших своего часа. По возвращении выяснилось, что модель изменилась невероятно, она начала реагировать совершенно иначе, а потому продолжать развитие старых идей едва ли было возможно. Но это, в свою очередь, стало лишь поводом придумать новые.

Итак, история нейросетей-живописцев берёт своё начало много лет назад, но именно 2022 год оказался переломным и привёл к обсуждаемому (технологическому? художественному?) прорыву. Почему? Потому что сошлись два обстоятельства. Во-первых, уже давно и бурно проходили работы по распознаванию и индексированию изображений. Практически все картинки в интернете подверглись многократному анализу, позволившему определить, что именно на них изображено. Алгоритмы распознавания начали показывать невероятные результаты, эффективно и подробно характеризуя графические файлы, что было важно, в частности, для поисковых систем. Таким образом, задача преобразования картинки в текстовое описание оказалась решаемой великолепно. Сейчас распространённым учебным упражнением для начинающих программистов в сфере машинного обучения является создание программы для классификации видов цветков, запечатлённых на фото. Подчёркиваем: не родов, а видов! То есть нужно не отличить ромашки от роз и ирисов, а разделить ирисы на виргинские (iris virginica), разноцветные (iris versicolor) и щетинистые (iris setosa).

Так или иначе, возникла огромная база соответствия изображений их описаниям. Безусловно, напрашивалась мысль о том, что это поможет решить обратную задачу – получать картинку по словесному запросу. Довольно скоро последовала идея, что изображение следует не искать среди существующих, а генерировать.

И второе обстоятельсто: незадолго до того – в 2017 году – исследователями из компании “Google” (которая чуть раньше выпустила модель DeepDream, способную создавать нашумевшие, но абсолютно не антропогенные, а нарочито психоделические картинки) были предложены “генеративные трансформерные модели”, которые в диффузном поколении нейросетей позволили получать результаты иного качества[15].

Названные два обстоятельства сошлись, будто детали пазла. Чуть выше мы говорили про количество нейронов в мозге. Так вот, упомянутая база изображений, лежащая в основе обучения лучших рисующих нейросетей, на момент создания настоящей книги составляет 2,3 миллиарда картинок, в описаниях которых выделено 3,5 миллиарда понятий (параметров)[16]. И это уже серьёзно.

4 5 6 7 Вперед