Евгений Волков – Агенты среди нас. Как нанять нейросеть на работу и не уволиться самому (страница 5)
– Если вы спросите: «Сколько денег у нас на счету?», он ответит: «Я не знаю, у меня нет доступа к вашему банку».
Ключевая функция LLM в агенте – это Оркестратор.
Мозг не обязательно должен знать всё. Его главная задача – понять,
Пример мыслительного процесса агента (это скрытый монолог, который происходит за доли секунды):
Выбор «мозга» для агента:
Не всем агентам нужен «Эйнштейн» (дорогая модель вроде GPT-4o).
– Для сложных переговоров и стратегического планирования мы берем «дорогие мозги».
– Для сортировки почты или извлечения данных из чеков достаточно «стажера» (быстрой и дешевой модели, например, GPT-4o-mini или Haiku). В бизнесе это называется LLM Routing – экономия бюджета за счет назначения задач моделям соответствующего уровня.
2. Память: RAG (Retrieval-Augmented Generation)
Самая большая проблема «голого» мозга – амнезия и галлюцинации.
LLM помнит только то, чему её учили при создании (общие знания мира), и то, что помещается в текущее окно диалога (кратковременная память). Как только вы закрываете чат, агент всё забывает.
Для бизнеса такой сотрудник бесполезен. Вы не можете нанять менеджера, который каждое утро забывает прайс-лист компании и имена ключевых клиентов.
Здесь на сцену выходит RAG (Retrieval-Augmented Generation) – Генерация, дополненная поиском.
Простыми словами, RAG – это долгосрочная память агента, его личная библиотека и картотека.
Это технология, которая позволяет агенту перед тем, как ответить, «сбегать в архив» и подсмотреть правильный ответ.
Как это работает механически:
– Вы загружаете в систему PDF-инструкции, регламенты, историю переписки, базу знаний компании.
– Система нарезает эти документы на маленькие кусочки (чанки) и складывает в специальную «Векторную Базу Данных» (Vector Database).
– Когда вы задаете вопрос, агент не выдумывает ответ из головы. Он сначала ищет похожие кусочки в вашей базе.
– Он находит нужный пункт инструкции: «Ага, при возврате товара мы требуем заявление по форме №5».
– И только потом формулирует вежливый ответ клиенту, опираясь на этот факт.
Без RAG агент – это фантазер. С RAG агент – это бюрократ, который следует букве вашего закона. RAG – это то, что превращает общедоступную нейросеть (которая училась на всем интернете) в
3. Руки: Инструменты (Tools / API)
Мозг с памятью может умно рассуждать, но он по-прежнему парализован. Он может выдать гениальный совет, но не может выполнить действие.
Чтобы агент стал сотрудником, ему нужны «Руки». В мире софта руками являются API (Application Programming Interface) и Функции (Function Calling).
Инструменты – это навыки агента. Это «кнопки», которые вы разрешаете ему нажимать во внешнем мире.
Типичные «руки» бизнес-агента:
– Web Search (Поиск в интернете): Способность гуглить актуальные курсы валют или новости конкурентов.
– Email Sender: Способность реально отправить письмо, а не просто сгенерировать его текст.
– Calendar API: Способность забронировать слот в вашем расписании.
– CRM Action: Способность передвинуть сделку на этап «Оплачено» или изменить телефон клиента.
– Code Interpreter: Способность написать и выполнить код (например, чтобы построить график в Excel или посчитать сложную математику).
Принцип минимальных привилегий:
Выдавая агенту руки, вы должны быть осторожны. Если вы дадите ему «руку», которая умеет удалять файлы, он может случайно удалить базу данных. Поэтому в архитектуре агентов мы всегда строго очерчиваем список доступных инструментов.
Хороший агент знает границы своих рук. Если вы попросите его: «Свари мне кофе», а у него нет подключения к API умной кофемашины, он (благодаря Мозгу) ответит: «Извините, у меня нет доступа к управлению физическими объектами».
Итоговая формула:
– Мозг (LLM) = Рассуждает и планирует.
– Память (RAG) = Дает контекст и факты.
– Руки (Tools) = Совершают полезное действие.
Уберите любой элемент, и система рухнет. Без мозга это скрипт. Без памяти это болтун. Без рук это консультант. Вместе – это Агент.
Чем агент отличается от простого скрипта автоматизации
Скептики часто говорят: «Зачем мне этот модный ИИ? Я могу написать скрипт на Python или настроить сценарий в Zapier, который будет делать то же самое».
Это справедливый вопрос. Граница между классической автоматизацией (Automation) и агентной автоматизацией (Agentic Automation) тонкая, но критически важная. Она проходит по линии адаптивности к неопределенности.
Чтобы понять разницу, давайте используем аналогию с транспортом.
– Скрипт (Automation) – это Поезд. Он очень мощный и быстрый. Но он может ехать только по рельсам. Если на рельсах лежит камень – поезд либо остановится, либо сойдет с рельсов. Если рельсы закончатся – он встанет. Поезд не может сказать: «Хм, тут ремонт путей, объеду-ка я через лес».
– Агент (Agentic AI) – это Внедорожник с водителем. Он может ехать по дороге. Но если дорога перекрыта, водитель (LLM) посмотрит на карту, оценит ситуацию и проедет по обочине. Он адаптируется.
1. Жесткая логика vs. Вероятностная логика
Скрипт (If/Then): Работает на жестких правилах.
–
–
–
Агент (Intention/Reasoning): Работает на смыслах.
–
–
2. Реакция на ошибки (Self-Correction)
Скрипт: Хрупок.
Если API сайта, с которого скрипт собирает цены, вернет ошибку 500, скрипт упадет и пришлет вам лог с красным текстом «Error». Процесс встал.
Агент: Устойчив.
Получив ошибку, агент «подумает»: «Так, сайт недоступен. Что я могу сделать? Я могу подождать 5 минут и попробовать снова. Или я могу попробовать найти этот товар на другом сайте-зеркале. Или я могу сообщить пользователю, что данные старые, но вот прогноз».
Агенты обладают способностью к саморефлексии. Они могут прочитать сообщение об ошибке, понять, что пошло не так (например, «неверный формат даты»), исправить свой же запрос и повторить попытку. Без участия человека.
3. Работа с неструктурированными данными
Скрипт: Любит таблицы и четкие формы.
Скрипт отлично перекладывает цифры из ячейки А1 в ячейку Б2. Но если вы дадите скрипту фотографию смятого чека или запись телефонного разговора с клиентом, он беспомощен.
Агент: Всеяден.