Евгений Волков – Агенты среди нас. Как нанять нейросеть на работу и не уволиться самому (страница 6)

Шрифт

Агент может «прочитать» фото чека (используя Vision модели), «услышать» аудио (используя Whisper), понять сарказм в голосе клиента и извлечь из этого хаоса структурированные данные. Агенты – это мост между хаосом реального мира и порядком баз данных.

Когда использовать скрипт, а когда агента?

Не нужно стрелять из пушки по воробьям. Агенты дороже и медленнее скриптов (так как каждый шаг требует обращения к LLM).

– Если задача линейна, предсказуема и не меняется (например, «каждую ночь копировать базу данных на резервный сервер») – используйте скрипт.

– Если задача требует суждения, понимания контекста или работы с «грязными» входными данными (например, «отвечать на отзывы клиентов» или «искать перспективные тендеры») – нанимайте агента.

Типология цифровых личностей: Исследователь, Критик, Исполнитель, Менеджер

При создании мультиагентной системы (Multi-Agent System), главная ошибка новичка – попытка создать одного «Супер-Агента», который умеет всё.

«Пусть он и ищет информацию, и пишет текст, и проверяет ошибки, и публикует».

Это плохая идея. Универсальные промпты работают хуже специализированных. LLM, как и человек, начинает путаться, когда в инструкции слишком много разнородных задач.

Эффективная система строится на разделении труда. Мы создаем команду узких специалистов. В современной практике (например, в фреймворках CrewAI или AutoGen) выделились четыре классических архетипа цифровых личностей.

1. Исследователь (The Researcher)

– Кредо: «Факты, только факты».

– Инструменты: Поиск в Google (Serper, Tavily), чтение сайтов (Scraper), доступ к Wikipedia или научным базам (Arxiv).

– Характер (System Prompt): Ты дотошный аналитик. Ты не веришь на слово. Ты должен найти первоисточник каждой цифры. Твоя задача – собрать максимально полную, но сырую информацию. Ты не пишешь красивый текст, ты собираешь «мясо».

– Зачем нужен: Чтобы избавить итоговый продукт от галлюцинаций. Он поставляет «чистое топливо» для других агентов.

2. Исполнитель / Креатор (The Doer / Creator)

– Кредо: «Сделаю быстро и красиво».

– Инструменты: Текстовый редактор, генератор кода, генератор картинок (DALL-E), шаблоны документов.

– Характер: Ты талантливый копирайтер (или программист). Твоя задача – взять сухие факты от Исследователя и превратить их в продукт. Ты заботишься о тоне (Tone of Voice), структуре и привлекательности. Ты можешь быть эмоциональным и креативным.

– Зачем нужен: Чтобы упаковать информацию в форму, потребляемую человеком или другой системой.

3. Критик (The Critic / Reviewer)

– Кредо: «Всё переделать. Это никуда не годится».

– Инструменты: Доступ к чек-листам качества, логические валидаторы, сравнение с эталоном.

– Характер: Ты вредный, придирчивый редактор. Твоя задача – найти слабые места в работе Исполнителя. Ты ищешь логические несостыковки, нарушение стиля, опасные формулировки или отсутствие аргументации. Ты никогда не хвалишь, ты только указываешь на ошибки.

– Зачем нужен: Это самый важный агент для контроля качества. Исполнитель склонен «заигрываться» и фантазировать. Критик приземляет его. Исследования показывают, что наличие агента-Критика в цепочке повышает точность ответов на 40—50%. Цикл «Написал – Раскритиковал – Исправил» дает результат на голову выше, чем просто «Написал».

4. Менеджер (The Manager / Orchestrator)

– Кредо: «Соблюдаем сроки и цель».

– Инструменты: Делегирование задач другим агентам, часы, память проекта.

– Характер: Ты руководитель проекта. Ты не делаешь работу руками. Ты получаешь задачу от человека («Напиши отчет о рынке кофе»), разбиваешь её на подзадачи, раздаешь их Исследователю и Исполнителю, следишь, чтобы они не ушли в дебри, и собираешь итоговый результат. Ты решаешь, когда работа готова («Definition of Done»).

– Зачем нужен: Чтобы система работала автономно. Без Менеджера вам пришлось бы вручную передавать данные от Исследователя к Исполнителю. Менеджер держит в голове «большую картинку» (Big Picture).

Как это работает в связке:

Вы (Человек) говорите Менеджеру: «Нужен пост про тренды ИИ».

– Менеджер зовет Исследователя: «Найди 3 свежих тренда за эту неделю».

– Исследователь серфит интернет и возвращает список ссылок и фактов.

– Менеджер передает это Исполнителю: «Напиши веселый пост на основе этих фактов».

– Исполнитель пишет черновик.

– Менеджер показывает черновик Критику: «Проверь, нет ли тут чуши?».

– Критик замечает: «Второй пункт – это фейк-ньюс, и тон слишком агрессивный».

– Менеджер возвращает Исполнителю: «Перепиши пункт 2 и смягчи тон».

– Исполнитель переписывает.

– Менеджер одобряет и присылает вам готовый текст.

Вся эта драма разыгрывается на сервере за 30 секунд. Вы получаете результат работы целого отдела, заплатив за токены копейки. Это и есть сила ролевой модели.

Глава 2. Почему они должны говорить друг с другом

Проблема «одного большого промпта»: почему универсальные модели глупеют от сложных задач

В начале «золотой лихорадки» генеративного ИИ (2023—2024 годы) в профессиональном сообществе доминировал подход, который мы сейчас, в эпоху агентных систем, называем «Монолитным Промптингом» (Monolithic Prompting). Мы все были его заложниками. И вы, скорее всего, тоже.

Вспомните свой самый сложный запрос к ChatGPT. Вероятно, он выглядел как бесконечное полотно текста, где смешались люди, кони, стилистические требования, факты и запреты.

«Ты – профессиональный маркетолог и юрист. Прочитай этот договор, найди риски, перепиши пункт 5, чтобы он был выгоднее для нас, но не злил контрагента, потом напиши вежливое сопроводительное письмо на английском языке в стиле деловой переписки Оксфорда, а в конце составь таблицу с ключевыми датами».

И что происходило дальше? Модель начинала бодро. Первый пункт выполнялся блестяще. Второй – неплохо. На третьем начинались странности: стиль письма становился слишком сухим, а в таблице появлялись галлюцинированные даты. К концу ответа модель словно «уставала», теряла нить рассуждений и игнорировала половину ваших инструкций.

Мы привыкли списывать это на «тупость» конкретной версии нейросети. Мы ждали GPT-5, надеясь, что она будет умнее. Но проблема не в мощности модели. Проблема в фундаментальной архитектуре современных нейросетей, которая делает «Один Большой Промпт» тупиковой ветвью эволюции. Чтобы понять, почему агенты неизбежны, нам нужно заглянуть под капот технологии Трансформеров и разобрать феномен, который ученые называют «Размытием Внимания» (Attention Dilution).

Механика внимания: Эффект фонарика в темной комнате

В основе всех современных LLM (Large Language Models) лежит механизм Self-Attention (Само-внимание). Это математический алгоритм, который позволяет модели при генерации каждого следующего слова «оглядываться» на весь предыдущий текст и решать, какие слова важны для текущего момента, а какие – нет.

Представьте, что контекстное окно модели (вся информация, которую вы ей дали) – это огромная темная комната, заставленная мебелью (фактами, инструкциями, условиями). «Внимание» модели – это луч карманного фонарика.

– Когда задача узкая и конкретная («Назови столицу Франции»), луч фонарика сфокусирован в узкую, яркую точку. Модель видит ответ кристально ясно. Вероятность ошибки стремится к нулю.

– Когда вы загружаете в модель «Один Большой Промпт» на 10 страниц с десятком разнородных задач, вы заставляете этот фонарик осветить сразу весь футбольный стадион.

– Что происходит с лучом? Он рассеивается. Свет становится тусклым. Модель вроде бы «видит» всё, но не видит ничего конкретно. Детали в тенях теряются. Инструкция «не использовать пассивный залог», написанная в середине промпта, просто тонет в информационном шуме.

Этот феномен научно подтвержден. В 2023 году исследователи из Стэнфорда (Nelson F. Liu et al.) опубликовали знаковую работу «Lost in the Middle» («Потерянные в середине»). Они доказали существование так называемой U-образной кривой производительности (U-shaped performance curve).

Суть открытия пугающая для бизнеса: LLM отлично запоминают то, что написано в самом начале промпта (Primacy Effect) и в самом конце (Recency Effect). Но информация, находящаяся в середине длинного контекста, проваливается в «слепую зону».

Если в вашем «Мега-Промпте» самое важное условие (например, «максимальный бюджет 5000$») находилось в середине текста, вероятность того, что модель его проигнорирует, достигает 60—70%.

Это не баг, это физика внимания. «Один Большой Промпт» физически не может обеспечить одинаково высокое качество выполнения для всех подзадач одновременно.

Три всадника промпт-апокалипсиса

Помимо технического ограничения внимания, монолитный подход порождает три критические проблемы, которые делают его непригодным для серьезного бизнеса.

1. Шизофрения ролей (Role Confusion)

В примере выше мы просили модель быть одновременно «агрессивным маркетологом» и «осторожным юристом». Для нейросети это взаимоисключающие векторы настройки вероятностей.

– Маркетолог требует высокой «Температуры» (Temperature> 0.7) – параметра, отвечающего за креативность, случайность и неожиданные обороты.

– Юрист требует нулевой «Температуры» (Temperature = 0) – параметра, обеспечивающего максимальную точность, детерминизм и сухость формулировок.

5 6 7 8 Вперед