Евгений Волков – Агенты среди нас. Как нанять нейросеть на работу и не уволиться самому (страница 6)
Агент может «прочитать» фото чека (используя Vision модели), «услышать» аудио (используя Whisper), понять сарказм в голосе клиента и извлечь из этого хаоса структурированные данные. Агенты – это мост между хаосом реального мира и порядком баз данных.
Когда использовать скрипт, а когда агента?
Не нужно стрелять из пушки по воробьям. Агенты дороже и медленнее скриптов (так как каждый шаг требует обращения к LLM).
– Если задача линейна, предсказуема и не меняется (например, «каждую ночь копировать базу данных на резервный сервер») – используйте скрипт.
– Если задача требует суждения, понимания контекста или работы с «грязными» входными данными (например, «отвечать на отзывы клиентов» или «искать перспективные тендеры») – нанимайте агента.
Типология цифровых личностей: Исследователь, Критик, Исполнитель, Менеджер
При создании мультиагентной системы (Multi-Agent System), главная ошибка новичка – попытка создать одного «Супер-Агента», который умеет всё.
«Пусть он и ищет информацию, и пишет текст, и проверяет ошибки, и публикует».
Это плохая идея. Универсальные промпты работают хуже специализированных. LLM, как и человек, начинает путаться, когда в инструкции слишком много разнородных задач.
Эффективная система строится на разделении труда. Мы создаем команду узких специалистов. В современной практике (например, в фреймворках CrewAI или AutoGen) выделились четыре классических архетипа цифровых личностей.
1. Исследователь (The Researcher)
– Кредо: «Факты, только факты».
– Инструменты: Поиск в Google (Serper, Tavily), чтение сайтов (Scraper), доступ к Wikipedia или научным базам (Arxiv).
– Характер (System Prompt): Ты дотошный аналитик. Ты не веришь на слово. Ты должен найти первоисточник каждой цифры. Твоя задача – собрать максимально полную, но сырую информацию. Ты не пишешь красивый текст, ты собираешь «мясо».
– Зачем нужен: Чтобы избавить итоговый продукт от галлюцинаций. Он поставляет «чистое топливо» для других агентов.
2. Исполнитель / Креатор (The Doer / Creator)
– Кредо: «Сделаю быстро и красиво».
– Инструменты: Текстовый редактор, генератор кода, генератор картинок (DALL-E), шаблоны документов.
– Характер: Ты талантливый копирайтер (или программист). Твоя задача – взять сухие факты от Исследователя и превратить их в продукт. Ты заботишься о тоне (Tone of Voice), структуре и привлекательности. Ты можешь быть эмоциональным и креативным.
– Зачем нужен: Чтобы упаковать информацию в форму, потребляемую человеком или другой системой.
3. Критик (The Critic / Reviewer)
– Кредо: «Всё переделать. Это никуда не годится».
– Инструменты: Доступ к чек-листам качества, логические валидаторы, сравнение с эталоном.
– Характер: Ты вредный, придирчивый редактор. Твоя задача – найти слабые места в работе Исполнителя. Ты ищешь логические несостыковки, нарушение стиля, опасные формулировки или отсутствие аргументации. Ты никогда не хвалишь, ты только указываешь на ошибки.
– Зачем нужен: Это самый важный агент для контроля качества. Исполнитель склонен «заигрываться» и фантазировать. Критик приземляет его. Исследования показывают, что наличие агента-Критика в цепочке повышает точность ответов на 40—50%. Цикл «Написал – Раскритиковал – Исправил» дает результат на голову выше, чем просто «Написал».
4. Менеджер (The Manager / Orchestrator)
– Кредо: «Соблюдаем сроки и цель».
– Инструменты: Делегирование задач другим агентам, часы, память проекта.
– Характер: Ты руководитель проекта. Ты не делаешь работу руками. Ты получаешь задачу от человека («Напиши отчет о рынке кофе»), разбиваешь её на подзадачи, раздаешь их Исследователю и Исполнителю, следишь, чтобы они не ушли в дебри, и собираешь итоговый результат. Ты решаешь, когда работа готова («Definition of Done»).
– Зачем нужен: Чтобы система работала автономно. Без Менеджера вам пришлось бы вручную передавать данные от Исследователя к Исполнителю. Менеджер держит в голове «большую картинку» (Big Picture).
Как это работает в связке:
Вы (Человек) говорите Менеджеру: «Нужен пост про тренды ИИ».
– Менеджер зовет Исследователя: «Найди 3 свежих тренда за эту неделю».
– Исследователь серфит интернет и возвращает список ссылок и фактов.
– Менеджер передает это Исполнителю: «Напиши веселый пост на основе этих фактов».
– Исполнитель пишет черновик.
– Менеджер показывает черновик Критику: «Проверь, нет ли тут чуши?».
– Критик замечает: «Второй пункт – это фейк-ньюс, и тон слишком агрессивный».
– Менеджер возвращает Исполнителю: «Перепиши пункт 2 и смягчи тон».
– Исполнитель переписывает.
– Менеджер одобряет и присылает вам готовый текст.
Вся эта драма разыгрывается на сервере за 30 секунд. Вы получаете результат работы целого отдела, заплатив за токены копейки. Это и есть сила ролевой модели.
Глава 2. Почему они должны говорить друг с другом
Проблема «одного большого промпта»: почему универсальные модели глупеют от сложных задач
В начале «золотой лихорадки» генеративного ИИ (2023—2024 годы) в профессиональном сообществе доминировал подход, который мы сейчас, в эпоху агентных систем, называем «Монолитным Промптингом» (Monolithic Prompting). Мы все были его заложниками. И вы, скорее всего, тоже.
Вспомните свой самый сложный запрос к ChatGPT. Вероятно, он выглядел как бесконечное полотно текста, где смешались люди, кони, стилистические требования, факты и запреты.
И что происходило дальше? Модель начинала бодро. Первый пункт выполнялся блестяще. Второй – неплохо. На третьем начинались странности: стиль письма становился слишком сухим, а в таблице появлялись галлюцинированные даты. К концу ответа модель словно «уставала», теряла нить рассуждений и игнорировала половину ваших инструкций.
Мы привыкли списывать это на «тупость» конкретной версии нейросети. Мы ждали GPT-5, надеясь, что она будет умнее. Но проблема не в мощности модели. Проблема в фундаментальной архитектуре современных нейросетей, которая делает «Один Большой Промпт» тупиковой ветвью эволюции. Чтобы понять, почему агенты неизбежны, нам нужно заглянуть под капот технологии Трансформеров и разобрать феномен, который ученые называют «Размытием Внимания» (Attention Dilution).
Механика внимания: Эффект фонарика в темной комнате
В основе всех современных LLM (Large Language Models) лежит механизм Self-Attention (Само-внимание). Это математический алгоритм, который позволяет модели при генерации каждого следующего слова «оглядываться» на весь предыдущий текст и решать, какие слова важны для текущего момента, а какие – нет.
Представьте, что контекстное окно модели (вся информация, которую вы ей дали) – это огромная темная комната, заставленная мебелью (фактами, инструкциями, условиями). «Внимание» модели – это луч карманного фонарика.
– Когда задача узкая и конкретная («Назови столицу Франции»), луч фонарика сфокусирован в узкую, яркую точку. Модель видит ответ кристально ясно. Вероятность ошибки стремится к нулю.
– Когда вы загружаете в модель «Один Большой Промпт» на 10 страниц с десятком разнородных задач, вы заставляете этот фонарик осветить сразу весь футбольный стадион.
– Что происходит с лучом? Он рассеивается. Свет становится тусклым. Модель вроде бы «видит» всё, но не видит ничего конкретно. Детали в тенях теряются. Инструкция «не использовать пассивный залог», написанная в середине промпта, просто тонет в информационном шуме.
Этот феномен научно подтвержден. В 2023 году исследователи из Стэнфорда (Nelson F. Liu et al.) опубликовали знаковую работу «Lost in the Middle» («Потерянные в середине»). Они доказали существование так называемой U-образной кривой производительности (U-shaped performance curve).
Суть открытия пугающая для бизнеса: LLM отлично запоминают то, что написано в самом начале промпта (Primacy Effect) и в самом конце (Recency Effect). Но информация, находящаяся в середине длинного контекста, проваливается в «слепую зону».
Если в вашем «Мега-Промпте» самое важное условие (например, «максимальный бюджет 5000$») находилось в середине текста, вероятность того, что модель его проигнорирует, достигает 60—70%.
Это не баг, это физика внимания. «Один Большой Промпт» физически не может обеспечить одинаково высокое качество выполнения для всех подзадач одновременно.
Три всадника промпт-апокалипсиса
Помимо технического ограничения внимания, монолитный подход порождает три критические проблемы, которые делают его непригодным для серьезного бизнеса.
1. Шизофрения ролей (Role Confusion)
В примере выше мы просили модель быть одновременно «агрессивным маркетологом» и «осторожным юристом». Для нейросети это взаимоисключающие векторы настройки вероятностей.
– Маркетолог требует высокой «Температуры» (Temperature> 0.7) – параметра, отвечающего за креативность, случайность и неожиданные обороты.
– Юрист требует нулевой «Температуры» (Temperature = 0) – параметра, обеспечивающего максимальную точность, детерминизм и сухость формулировок.