Антон Аракчеев – AI Arsenal 2026. 500+ промтов для взрывного роста бизнеса (страница 10)
💡 Лайфхак: Для локальных моделей критически важна техника RAG (Retrieval-Augmented Generation) — подключение векторной базы данных (Milvus, Qdrant, ChromaDB) с вашими документами. Без RAG локальная модель работает только на своих встроенных знаниях. С RAG она «читает» ваши регламенты, базы знаний, документацию — и даёт точные ответы, основанные на ваших данных. Порядок настройки: 1) Оцифруйте документы в текстовом формате. 2) Разбейте на чанки (500–1000 токенов). 3) Загрузите в векторную БД через эмбеддинги. 4) Подключите к модели через фреймворк LangChain или LlamaIndex.
3.3. Мультимодальность: текст + изображение + аудио + код
В 2025 году мультимодальность перестала быть фичей — она стала стандартом. Современные модели воспринимают не только текст, но и изображения, аудио, видео и программный код в едином контексте. GPT-4o обрабатывает изображение и текст одновременно, Gemini 2.0 принимает видеоролики длиной до 60 минут, Claude 3.5 анализирует PDF-документы с таблицами и графиками. Это меняет саму природу взаимодействия с AI: вместо того чтобы описывать объект словами, вы можете просто показать его.
Для бизнес-пользователя мультимодальность открывает принципиально новые сценарии: аудит дашбордов по скриншотам, анализ фото товаров для каталога, транскрибация и обобщение встреч, генерация кода по макету интерфейса, извлечение данных из отсканированных документов. Важно понимать, что разные модели имеют разную «глубину» мультимодальности: одна отлично читает текст с фото, но не распознаёт диаграммы; другая понимает видеоряд, но плохо работает со схемами. Таблица ниже поможет подобрать оптимальную модель для каждой модальности.
Модальность
GPT-4o
Claude 3.5
Gemini 2.0
YandexGPT 4
GigaChat Max
Текст → Текст
★★★★★
★★★★★
★★★★☆
★★★★☆
★★★☆☆
Изображение → Текст
★★★★☆
★★★★☆
★★★★★
★★★☆☆
★★☆☆☆
Аудио → Текст
★★★★★
★★☆☆☆
★★★★☆
★★☆☆☆
★☆☆☆☆
Видео → Текст
★★★☆☆
★☆☆☆☆
★★★★★
★☆☆☆☆
★☆☆☆☆
Код → Код
★★★★★
★★★★☆
★★★★☆
★★★☆☆
★★★☆☆
PDF / Документы
★★★★☆
★★★★★
★★★★☆
★★★☆☆
★★★☆☆
Промт 7 — Аудит дашборда по скриншоту:
[Прикрепи скриншот дашборда] Ты — data-аналитик и визуализатор данных (R). Проанализируй этот дашборд и дай развёрнутую оценку (I). Оцени: 1) Понятность — можно ли за 10 секунд понять главный инсайт? 2) Иерархию — выделен ли главный метрик, видны ли второстепенные? 3) Цветовую палитру — есть ли конфликтующие цвета, достаточно ли контраста? 4) Заголовки и подписи — понятны ли они без дополнительного контекста? 5) Данные — есть ли визуальные искажения (усечённые оси, misleading scale) (C). Формат: таблица «Элемент | Оценка (1–10) | Проблема | Рекомендация» + 3 конкретных шага по улучшению (S). (P).
Промт 8 — Анализ фото товара для каталога:
[Прикрепи фото товара] Ты — менеджер маркетплейса и эксперт по карточкам товаров (R). Проанализируй это фото товара и подготовь контент для карточки (I). Категория: [категория товара]. Платформа: [Wildberries / Ozon / Яндекс.Маркет] (C). Выполни: 1) Опиши товар: цвет, материал, размер, особенности конструкции (что видно на фото). 2) Выдели 5 преимуществ из визуальных характеристик. 3) Напиши SEO-заголовок (до 80 символов). 4) Определи, каких ракурсов не хватает для полной карточки (S). Ключевые слова: [ключевые слова] (P). Язык: русский.
Промт 9 — Из макета интерфейса в код:
[Прикрепи скриншот/макет UI] Ты — senior frontend-разработчик (R). На основе этого макета интерфейса сгенерируй HTML + CSS (или React/Next.js компонент) (I). Требования: 1) Pixel-perfect приближение к макету: цвета, отступы, типографика. 2) Адаптивная вёрстка — мобильная, планшетная, десктопная. 3) Используй Tailwind CSS (или укажи другой фреймворк: [фреймворк]). 4) Семантическая HTML-разметка. 5) Добавь комментарии к ключевым блокам (C, S). Для сложных интерактивных элементов добавь JavaScript (P). Код должен быть готов к интеграции в проект.
Промт 10 — Транскрибация + саммари встречи:
[Прикрепи аудиофайл или загрузи транскрипт] Ты — бизнес-ассистент, специализируешься на протоколированию встреч (R). На основе этой записи встречи подготовь: 1) Краткое саммари (3–5 предложений, главные итоги). 2) Список решений (Decision Register) — «Что решили | Кто отвечает | Срок». 3) Список задач (Action Items) — «Задача | Исполнитель | Дедлайн | Приоритет». 4) Ключевые аргументы и дискуссии — краткие тезисы по каждому вопросу. 5) Открытые вопросы, требующие последующего обсуждения (C, S). Формат: структурированный документ с заголовками и таблицами (P). Язык: русский.
Промт 11 — Извлечение данных из сканированного документа:
[Прикрепи скан/фото документа — договор, счёт, акт] Ты — финансовый аналитик, специализируешься на обработке документов (R). Извлеки все структурированные данные из этого документа (I). Поля для извлечения: [перечислите поля: номер, дата, сумма, контрагент, ИНН, предмет договора и т.д.] (C). Требования: 1) Точность — каждая цифра и дата должны быть извлечены без ошибок. 2) Если символ читается неоднозначно — явно укажи варианты. 3) Суммы переведи в стандартный формат (цифрами). 4) Формат: JSON для автоматической загрузки в [система, например: 1С / SAP] (S, P). Проверь контрольные суммы, если применимо.
📊 Метрика: Согласно нашему тестированию (2025), мультимодальные модели корректно извлекают данные из таблиц на изображениях в 87–94 % случаев для GPT-4o и Claude 3.5. Для сканированных документов с рукописным текстом точность падает до 65–78 %. Рекомендация: для критических документов (договоры, финансовые отчёты) всегда верифицируйте извлечённые данные вручную или используйте специализированные OCR-системы (ABBYY FineReader, Tesseract) в связке с LLM.
3.4. Стратегия выбора: дерево решений
Абсолютный вопрос: «Какую модель использовать?» — не имеет универсального ответа. Но есть универсальный метод — дерево решений. Это пошаговый алгоритм, который за 5–6 вопросов сужает выбор от десятков моделей до одной-двух оптимальных. Дерево решений учитывает три группы факторов: характер задачи (что нужно сделать), ограничения данных (можно ли отправлять данные в облако) и операционные требования (бюджет, скорость, объём).
Ниже — текстовая версия дерева решений. Пройдите его от первого вопроса к финальной рекомендации. Каждый ответ ведёт к следующему вопросу или к конкретной модели. Это дерево учитывает реальные сценарии российского бизнеса 2026 года: работу с персональными данными, необходимость соответствия 152-ФЗ, бюджетные ограничения и доступность без VPN.