Евгений Волков – Агенты среди нас. Как нанять нейросеть на работу и не уволиться самому (страница 5)

Шрифт

– Если вы спросите: «Сколько денег у нас на счету?», он ответит: «Я не знаю, у меня нет доступа к вашему банку».

Ключевая функция LLM в агенте – это Оркестратор.

Мозг не обязательно должен знать всё. Его главная задача – понять, что нужно сделать, и решить, какой инструмент для этого использовать.

Пример мыслительного процесса агента (это скрытый монолог, который происходит за доли секунды):

«Пользователь спрашивает про остатки товара на складе. Я сам этого не знаю. Но у меня есть инструмент „Поиск в базе 1С“. Значит, мне нужно сформулировать SQL-запрос, передать его в инструмент, получить ответ и перевести его на человеческий язык для пользователя».

Выбор «мозга» для агента:

Не всем агентам нужен «Эйнштейн» (дорогая модель вроде GPT-4o).

– Для сложных переговоров и стратегического планирования мы берем «дорогие мозги».

– Для сортировки почты или извлечения данных из чеков достаточно «стажера» (быстрой и дешевой модели, например, GPT-4o-mini или Haiku). В бизнесе это называется LLM Routing – экономия бюджета за счет назначения задач моделям соответствующего уровня.

2. Память: RAG (Retrieval-Augmented Generation)

Самая большая проблема «голого» мозга – амнезия и галлюцинации.

LLM помнит только то, чему её учили при создании (общие знания мира), и то, что помещается в текущее окно диалога (кратковременная память). Как только вы закрываете чат, агент всё забывает.

Для бизнеса такой сотрудник бесполезен. Вы не можете нанять менеджера, который каждое утро забывает прайс-лист компании и имена ключевых клиентов.

Здесь на сцену выходит RAG (Retrieval-Augmented Generation) – Генерация, дополненная поиском.

Простыми словами, RAG – это долгосрочная память агента, его личная библиотека и картотека.

Это технология, которая позволяет агенту перед тем, как ответить, «сбегать в архив» и подсмотреть правильный ответ.

Как это работает механически:

– Вы загружаете в систему PDF-инструкции, регламенты, историю переписки, базу знаний компании.

– Система нарезает эти документы на маленькие кусочки (чанки) и складывает в специальную «Векторную Базу Данных» (Vector Database).

– Когда вы задаете вопрос, агент не выдумывает ответ из головы. Он сначала ищет похожие кусочки в вашей базе.

– Он находит нужный пункт инструкции: «Ага, при возврате товара мы требуем заявление по форме №5».

– И только потом формулирует вежливый ответ клиенту, опираясь на этот факт.

Без RAG агент – это фантазер. С RAG агент – это бюрократ, который следует букве вашего закона. RAG – это то, что превращает общедоступную нейросеть (которая училась на всем интернете) в вашу корпоративную нейросеть (которая знает только ваш бизнес).

3. Руки: Инструменты (Tools / API)

Мозг с памятью может умно рассуждать, но он по-прежнему парализован. Он может выдать гениальный совет, но не может выполнить действие.

Чтобы агент стал сотрудником, ему нужны «Руки». В мире софта руками являются API (Application Programming Interface) и Функции (Function Calling).

Инструменты – это навыки агента. Это «кнопки», которые вы разрешаете ему нажимать во внешнем мире.

Типичные «руки» бизнес-агента:

– Web Search (Поиск в интернете): Способность гуглить актуальные курсы валют или новости конкурентов.

– Email Sender: Способность реально отправить письмо, а не просто сгенерировать его текст.

– Calendar API: Способность забронировать слот в вашем расписании.

– CRM Action: Способность передвинуть сделку на этап «Оплачено» или изменить телефон клиента.

– Code Interpreter: Способность написать и выполнить код (например, чтобы построить график в Excel или посчитать сложную математику).

Принцип минимальных привилегий:

Выдавая агенту руки, вы должны быть осторожны. Если вы дадите ему «руку», которая умеет удалять файлы, он может случайно удалить базу данных. Поэтому в архитектуре агентов мы всегда строго очерчиваем список доступных инструментов.

Хороший агент знает границы своих рук. Если вы попросите его: «Свари мне кофе», а у него нет подключения к API умной кофемашины, он (благодаря Мозгу) ответит: «Извините, у меня нет доступа к управлению физическими объектами».

Итоговая формула:

– Мозг (LLM) = Рассуждает и планирует.

– Память (RAG) = Дает контекст и факты.

– Руки (Tools) = Совершают полезное действие.

Уберите любой элемент, и система рухнет. Без мозга это скрипт. Без памяти это болтун. Без рук это консультант. Вместе – это Агент.

Чем агент отличается от простого скрипта автоматизации

Скептики часто говорят: «Зачем мне этот модный ИИ? Я могу написать скрипт на Python или настроить сценарий в Zapier, который будет делать то же самое».

Это справедливый вопрос. Граница между классической автоматизацией (Automation) и агентной автоматизацией (Agentic Automation) тонкая, но критически важная. Она проходит по линии адаптивности к неопределенности.

Чтобы понять разницу, давайте используем аналогию с транспортом.

– Скрипт (Automation) – это Поезд. Он очень мощный и быстрый. Но он может ехать только по рельсам. Если на рельсах лежит камень – поезд либо остановится, либо сойдет с рельсов. Если рельсы закончатся – он встанет. Поезд не может сказать: «Хм, тут ремонт путей, объеду-ка я через лес».

– Агент (Agentic AI) – это Внедорожник с водителем. Он может ехать по дороге. Но если дорога перекрыта, водитель (LLM) посмотрит на карту, оценит ситуацию и проедет по обочине. Он адаптируется.

1. Жесткая логика vs. Вероятностная логика

Скрипт (If/Then): Работает на жестких правилах.

– Задача: Разобрать почту.

– Логика скрипта: «ЕСЛИ в теме письма есть слово „Счет“, ТО переслать бухгалтеру».

– Проблема: Клиент прислал письмо с темой «Оплата за услуги по договору». Слово «Счет» отсутствует. Скрипт пропустит это письмо. Для скрипта «Счет» и «Оплата» – это абсолютно разные наборы байтов. Чтобы починить это, вам придется вручную дописывать правило: «ЕСЛИ «Счет» ИЛИ «Оплата» ИЛИ «Invoice»…». Вы станете рабом бесконечных правил.

Агент (Intention/Reasoning): Работает на смыслах.

– Логика агента: «Проанализируй содержимое письма. Если суть письма касается финансовых документов или просьбы об оплате – перешли бухгалтеру».

– Результат: Агент поймет, что «Оплата», «Инвойс», «Где деньги?» и «Кидаю акты» – это всё семантически близкие понятия. Он поймет смысл, даже если конкретных ключевых слов нет. Он устойчив к вариативности человеческого языка.

2. Реакция на ошибки (Self-Correction)

Скрипт: Хрупок.

Если API сайта, с которого скрипт собирает цены, вернет ошибку 500, скрипт упадет и пришлет вам лог с красным текстом «Error». Процесс встал.

Агент: Устойчив.

Получив ошибку, агент «подумает»: «Так, сайт недоступен. Что я могу сделать? Я могу подождать 5 минут и попробовать снова. Или я могу попробовать найти этот товар на другом сайте-зеркале. Или я могу сообщить пользователю, что данные старые, но вот прогноз».

Агенты обладают способностью к саморефлексии. Они могут прочитать сообщение об ошибке, понять, что пошло не так (например, «неверный формат даты»), исправить свой же запрос и повторить попытку. Без участия человека.

3. Работа с неструктурированными данными

Скрипт: Любит таблицы и четкие формы.

Скрипт отлично перекладывает цифры из ячейки А1 в ячейку Б2. Но если вы дадите скрипту фотографию смятого чека или запись телефонного разговора с клиентом, он беспомощен.

Агент: Всеяден.

4 5 6 7 Вперед