реклама
Бургер менюБургер меню

Фёдор Баснописец – ИИ для создания аватарок и профилей в соцсетях (страница 2)

18

Представьте, что нейросеть – это очень талантливый, но абсолютно неопытный художник, который никогда не видел реального мира. Всё, что он знает, он почерпнул из гигантской библиотеки книг с картинками. Он пересмотрел миллионы изображений: котов, людей, машины, закаты, яблоки в разных стилях. И рядом с каждой картинкой была подпись: «рыжий кот на подоконнике», «девушка в красном платье под дождём», «футуристический автомобиль на фоне заката». Наш художник запомнил, как выглядят рыжие коты, как выглядит подоконник и как обычно сочетаются эти вещи.

Когда вы пишете свой запрос, или, как мы уже знаем, промпт, вы даёте этому художнику задание. Вы говорите: «Нарисуй мне рыжего кота на подоконнике». Художник лезет в свою память, достаёт оттуда образ кота, образ подоконника и соединяет их. Но он же не просто копирует, он творит! Он может нарисовать кота в масле, акварелью, в стиле импрессионизма или гиперреализма, в зависимости от того, что вы ему ещё скажете.

Но есть один нюанс. Наш художник – иностранец. Он понимает русские слова, но мыслит немного по-своему. Для него слова имеют разный вес. Если вы скажете «кот», он вспомнит всех котов сразу. Если вы скажете «огромный пушистый рыжий кот», он начнёт искать в своей памяти именно таких котов. Чем точнее и конкретнее ваше описание, тем меньше у художника простора для фантазии, которую вы можете не оценить.

Вот тут мы и подходим к самому интересному – к структуре идеального промпта. Нельзя просто прийти и сказать «нарисуй красиво». Что такое «красиво»? Для одного красиво – это закат на пляже, для другого – готический собор, а для третьего – абстракция. Художник-нейросеть тоже не знает, что для вас красиво, поэтому выдаст что-то усреднённое, то, что в его библиотеке чаще всего подписывали словом «красиво». И результат, скорее всего, вас разочарует.

Хороший промпт – это как подробная инструкция для этого художника. Она должна отвечать на несколько простых вопросов: ЧТО или КТО является главным героем? ГДЕ это происходит? В КАКОМ СТИЛЕ это нарисовано? и КАК это освещено?

Давайте разберём это на примере. Допустим, мы хотим получить аватар для психолога, который помогает людям обрести гармонию. Можно написать просто «женщина психолог», и нейросеть выдаст нам женщину в очках и с блокнотом, стоящую у книжного шкафа. Скучно, банально и таких аватаров тысячи.

А теперь попробуем написать промпт по нашим правилам. Главный герой: «женщина с мягкой улыбкой, излучающая спокойствие и уверенность». Место действия: «сидит в удобном кресле в светлой комнате с большим окном, за которым виден тихий зелёный сад». Стиль: «реалистичное фото, высокая детализация». Освещение: «мягкий утренний свет падает из окна, создавая тёплую и уютную атмосферу». Чувствуете разницу? У художника больше нет вопросов. Он чётко понимает, что надо рисовать.

От теории к практике: учимся разговаривать с нейросетью

Теперь, когда мы понимаем логику, нужно научиться правильно формулировать свои мысли. Это похоже на изучение иностранного языка, только словарь тут довольно простой. Главное правило здесь – конкретика и детали. Избегайте абстрактных понятий вроде «круто», «модно», «современно». Нейросеть не знает, что сейчас модно в вашем понимании. Вместо этого опишите приметы моды: «стиль минимализм», «пастельные тона», «чёткие линии», «глянцевые поверхности».

Один мой знакомый, назовём его начинающий блогер, очень долго мучился, пытаясь получить аватар в стиле «как у всех известных блогеров». Он перепробовал кучу вариантов, но получал либо откровенную халтуру, либо нечто совершенно непохожее на то, что он видел у кумиров. А всё потому, что он оперировал общими фразами. Когда же он сел и проанализировал, что именно ему нравится в аватарах известных людей, он понял: это всегда крупный план лица, очень контрастное освещение с одной стороны, так называемый «голливудский» свет, и обязательно лёгкая небрежность в причёске. Как только он описал эти детали в промпте, нейросеть с первого раза выдала то, что нужно.

Поначалу вам придется быть очень дотошным. Представьте, что вы объясняете задание инопланетянину, который знает значения слов, но не понимает контекст. Если вы скажете «офис», он нарисует просто комнату со столом и стулом. А если вы скажете «современный офис IT-компании с открытой планировкой, с зелёными растениями и неоновыми вывесками на стенах», картинка будет совсем другой.

Отрицания и ошибки начинающих

Отдельная боль новичков – это попытки использовать отрицания в промптах. Вы пишете «человек без бороды», а нейросеть упорно рисует человека с бородой. Почему? Потому что наш художник-иностранец думает образами. Он слышит слово «человек» и рисует человека. Слово «борода» он тоже слышит и, даже если вы сказали «без», он подсознательно может пририсовать её, потому что она была упомянута. Для него факт упоминания бороды иногда важнее, чем отрицание. Вместо того чтобы говорить «без бороды», лучше скажите «чисто выбритый мужчина». Это работает гораздо эффективнее. То же самое с фоном. Вместо «не красный фон», скажите «зелёный фон» или «синий фон». Давайте нейросети позитивные указания, а не запреты.

Ещё одна частая история – попытка объять необъятное. Не пытайтесь в одном промпте уместить всё. «Красивый мужчина в костюме, на фоне космоса, в стиле стимпанк, с собакой, держащий в руках чашку кофе и книгу, при этом идёт дождь, а сзади единорог». Скорее всего, нейросеть впадет в ступор и нарисует кашу, потому что её память не хранит таких противоречивых сочетаний. Лучше разбивать сложные запросы на несколько этапов, но об этом мы поговорим в главе про тонкую настройку.

Первые шаги: пишем свой первый промпт

Давайте прямо сейчас, не откладывая, попробуем написать наш первый осмысленный промпт. Не надо открывать никакие программы, просто сядьте и подумайте о себе. Представьте свой идеальный аватар. Не тот, который у вас есть сейчас, а тот, который бы вы хотели видеть. Не спешите, закройте глаза. Где вы находитесь? В лесу, в офисе, в кафе, на сцене? Во что вы одеты? Какое у вас выражение лица? Серьёзное, игривое, задумчивое? Какой свет? Яркий полуденный или таинственный вечерний? В каком стиле выполнена картинка? Это фотореализм, рисунок карандашом или, может быть, 3D-графика?

Вспомните, что мы говорили о важности деталей. Чем больше деталей вы вспомните, тем точнее нейросеть поймёт ваш внутренний запрос. Например, «Я сижу за деревянным столом в уютной кофейне, за окном идёт дождь, на столе стоит чашка с дымящимся капучино и раскрытая книга. Я смотрю в окно с лёгкой задумчивой улыбкой. Стиль – тёплая кинематографичная фотография, мягкий свет от лампы над столом, лёгкое зерно плёнки». Видите, это уже не просто «фото человека в кафе». Это история, которую нейросеть с удовольствием визуализирует.

Позже мы будем учиться добавлять в промпты имена художников и конкретные техники, чтобы добиваться ещё более точных стилизаций, но для начала достаточно освоить эту простую четырёхчастную формулу: объект, окружение, стиль, освещение. Потренируйтесь на бумаге, опишите так несколько своих знакомых или мест, которые вы любите. Вы удивитесь, насколько по-другому вы начнёте видеть мир, подмечая те самые детали, которые делают картинку живой и уникальной. Это и есть первый и самый важный шаг к тому, чтобы нейросети стали вашим покорным инструментом, а не своенравным художником, который рисует непонятно что.

Обзор популярных платформ и инструментов для новичков

Итак, мы уже разобрались, зачем нам всё это нужно и как работает «магия» нейросетей. Теперь самое время перейти к практике. Представьте, что вы пришли в огромный супермаркет электроники, а перед вами – стена с десятками разных моделей смартфонов. Все они звонят, показывают картинки и выходят в интернет, но какой выбрать именно вам? С генераторами изображений точно такая же история. В этой главе мы не будем углубляться в технические дебри, а просто пройдемся по основным «витринам» и посмотрим, что предлагают самые популярные платформы для новичков. Наша задача – понять их характеры и особенности, чтобы вы могли выбрать того самого «помощника», с которым вам будет комфортно работать.

Знакомство с главными героями

Когда речь заходит об ИИ-генерации, в первую очередь все вспоминают Midjourney. Это как тот самый модный друг, у которого всегда всё стильно и красиво. Он живёт не в браузере, как большинство, а в мессенджере Discord, и поначалу это может немного пугать. Но если разобраться, ничего сложного там нет. Midjourney славится своей любовью к эстетике. Если дать ему задачу нарисовать аватарку, он, скорее всего, выдаст что-то очень художественное, с интересным светом и проработанной атмосферой. Он отлично понимает, что такое «стильно», «эпично» или «кинематографично». Это генератор для тех, кто хочет, чтобы картинка сразу выглядела как обложка журнала. Его главная сила – в умении создавать настроение и глубокие, насыщенные образы.

Его главный конкурент, о котором вы наверняка тоже слышали, – это Stable Diffusion. В отличие от модного друга, Stable Diffusion – это скорее инженер-изобретатель. Он открыт для экспериментов, и у него есть огромное количество «дополнительных модулей» и настроек. Он может жить и в браузере, и на вашем компьютере, если у вас мощная видеокарта. Stable Diffusion позволяет контролировать буквально всё: от позы человека до точного освещения. Он требует больше сноровки, но и возможности у него практически безграничны. Для создания аватарок он идеален, если вам нужно что-то очень конкретное, например, «человек в красной рубашке, смотрящий вправо, на фоне заката, стиль комиксов 90-х». Он будет послушно выполнять все инструкции.