реклама
Бургер менюБургер меню

Andy Smith – Как правильно пользоваться ИИ в 2026 году (страница 3)

18

Однако есть нюанс: модель «видит» весь контекст, но не все его части обрабатывает с одинаковым вниманием. Исследования показывают, что информация в начале и в конце контекстного окна обрабатывается лучше, чем информация в середине (так называемый эффект «потерянной середины», lost in the middle). Это означает, что при работе с длинными документами важно размещать ключевую информацию в начале или конце запроса.

Температура и другие параметры

Когда модель генерирует ответ, она не просто выбирает «лучшее» следующее слово. На каждом шаге она рассчитывает вероятности для всех возможных следующих токенов и выбирает один из них. Параметр «температура» управляет тем, насколько случайным или детерминированным будет этот выбор.

При температуре 0 модель всегда выбирает наиболее вероятный токен. Это даёт максимально предсказуемые, консистентные, но порой скучные и шаблонные ответы. При высокой температуре (например, 1.0 или выше) модель с большей вероятностью выберет менее очевидные варианты — это даёт более разнообразные, творческие, но иногда несвязные или бессмысленные ответы.

В большинстве потребительских продуктов — ChatGPT, Claude, Gemini — температура предустановлена и не видна пользователю. Но понимание этого параметра полезно: если ответ кажется слишком шаблонным и безликим, можно попросить модель «быть более креативной» или «предложить неочевидные варианты» — это функциональный аналог повышения температуры через промпт. Если, наоборот, нужен точный и предсказуемый ответ (например, при работе с кодом или фактическими данными), стоит просить модель «быть точной и фактологичной, избегать предположений».

Другой важный параметр — top-p (nucleus sampling). Он ограничивает набор токенов, из которых модель делает выбор, определённой долей вероятностной массы. При top-p = 0.9 модель рассматривает только токены, суммарная вероятность которых составляет 90 процентов, отсекая маловероятные (и потенциально бессмысленные) варианты. Температура и top-p работают совместно и обычно настраиваются через API, а не через пользовательский интерфейс.

Галлюцинации: почему модель уверенно врёт

Галлюцинация — это ситуация, когда модель генерирует ответ, который выглядит правдоподобно, сформулирован уверенно, но фактически не соответствует действительности. Модель может «выдумать» научную статью с правдоподобным названием и авторами, сослаться на несуществующий закон, привести вымышленную статистику с точными цифрами до десятых.

Галлюцинации — не баг, а следствие архитектуры. Модель обучена генерировать правдоподобный текст, а не хранить и воспроизводить факты. Когда модель «не знает» ответа (то есть в обучающих данных нет достаточно чёткого паттерна), она не останавливается — она генерирует наиболее вероятное продолжение текста. А наиболее вероятное продолжение для вопроса «Какие статьи опубликовал профессор Х?» — это список статей с правдоподобными названиями, даже если ни одна из них не существует.

За последние два года модели стали значительно лучше в этом отношении. Reasoning-модели (о них ниже) галлюцинируют реже, потому что проходят через этап внутренней проверки. Модели с подключённым поиском в интернете могут ссылаться на реальные источники. Но проблема не решена полностью и, по мнению большинства исследователей, не будет решена в ближайшие годы. Проверка фактов остаётся обязанностью пользователя.

Мультимодальность: не только текст

Ранние языковые модели работали исключительно с текстом. Современные модели — мультимодальные: они могут обрабатывать и генерировать различные типы данных. GPT-5 понимает и генерирует текст, анализирует изображения, обрабатывает аудио и работает с файлами. Gemini 2.5 Pro принимает на вход текст, изображения, аудио и видео. Claude Sonnet 4.6 обрабатывает текст и изображения.

Для пользователя это означает: можно сфотографировать рукописную заметку и попросить ИИ перевести её в структурированный текст. Можно загрузить скриншот с ошибкой в программе и попросить объяснить, в чём проблема. Можно загрузить аудиозапись совещания и получить протокол с ключевыми решениями. Можно загрузить фотографию блюда и попросить оценить его состав и калорийность.

Модель vs. продукт: важное различие

Часто люди путают модель и продукт. GPT-5.2 — это модель, обученная OpenAI нейронная сеть с определёнными характеристиками. ChatGPT — это продукт, пользовательский интерфейс, через который эта модель доступна обычному пользователю. Продукт добавляет к модели множество дополнительных функций: историю диалогов, поиск в интернете, работу с файлами, генерацию изображений, голосовой режим, «память» о предыдущих разговорах, кастомные GPT.

Аналогично: Claude Sonnet 4.6 — это модель, а claude.ai — продукт. Gemini 2.5 Pro — модель, а приложение Gemini — продукт. Понимание этого различия важно, потому что одна и та же модель может быть доступна через разные продукты и интерфейсы, и каждый из них добавляет свои возможности и ограничения.

API: зачем он нужен обычному пользователю

API (Application Programming Interface) — это программный интерфейс, через который разработчики могут обращаться к модели напрямую, без пользовательского интерфейса чат-бота. Зачем это может быть нужно обычному пользователю?

Во-первых, через API можно точно настраивать параметры модели: температуру, длину ответа, формат вывода. Во-вторых, API позволяет автоматизировать рутинные задачи: обработать тысячу писем, перевести сто документов, проанализировать массив данных. В-третьих, API часто дешевле подписки для определённых паттернов использования: если вы делаете много коротких запросов, оплата за токены может оказаться выгоднее фиксированной абонентской платы. В-четвёртых, многие сторонние приложения (Notion AI, Canva, автоматизации через Zapier) используют API «под капотом» — пользователь взаимодействует с привычным интерфейсом, а за кулисами работает языковая модель.

Закрытые и открытые модели

Модели делятся на две большие категории: закрытые (proprietary) и открытые (open-source / open-weight).

Закрытые модели — GPT-5.x от OpenAI, Claude от Anthropic, Gemini от Google — доступны только через продукты и API этих компаний. Их код и веса (числовые параметры нейросети) не публикуются. Преимущества: как правило, наивысшее качество, регулярные обновления, техническая поддержка. Недостатки: зависимость от компании-провайдера, невозможность запуска на собственных серверах, передача данных третьей стороне, потенциальные проблемы с конфиденциальностью.

Открытые модели — Llama от Meta, DeepSeek от одноимённой китайской компании, Mistral (Франция), Qwen от Alibaba — публикуют свои веса. Это означает, что любой человек или организация может скачать модель и запустить её на собственном оборудовании. Преимущества: полный контроль над данными (ничего не передаётся третьей стороне), возможность дообучения (fine-tuning) под специфические задачи, отсутствие цензуры и ограничений, бесплатность. Недостатки: требуется техническая экспертиза для запуска и настройки, нужно мощное оборудование (для крупных моделей — серверные GPU), качество может уступать лучшим закрытым моделям.

Reasoning-модели: ИИ, который «думает» перед ответом

В 2024-2025 годах появился новый класс моделей — reasoning-модели, или модели с рассуждениями. Их ключевое отличие: прежде чем дать ответ, модель проходит через этап внутренних рассуждений, иногда занимающий от нескольких секунд до нескольких минут. Пользователь может видеть этот процесс в виде «свёрнутых мыслей» — цепочки рассуждений, которые модель проходит перед формулировкой финального ответа.

OpenAI выпустила серию reasoning-моделей: o1 (сентябрь 2024), o3 и o4-mini (апрель 2025). Anthropic реализовала extended thinking в Claude Sonnet 3.7 и последующих версиях. Google добавил Deep Think режим в Gemini 2.5 Pro. DeepSeek выпустила R1 — reasoning-модель, которая в январе 2025 года привлекла огромное внимание тем, что достигла результатов, сопоставимых с закрытыми моделями, при значительно меньших вычислительных затратах.

Reasoning-модели особенно полезны для задач, требующих многошагового анализа: сложная математика, программирование, логические головоломки, юридический анализ, стратегическое планирование. Для простых задач — перевод, краткий ответ на вопрос, генерация текста — они могут быть избыточны: процесс «рассуждения» занимает дополнительное время и расходует больше токенов, что увеличивает стоимость.

Понимание всех этих принципов — токенов, контекстного окна, температуры, мультимодальности, разницы между моделями и продуктами — не делает из пользователя инженера машинного обучения. Но оно делает из него квалифицированного пользователя, который понимает, что стоит за ответами ИИ, и способен получить от инструмента значительно больше, чем тот, кто воспринимает ИИ как чёрный ящик.

Глава 3. Промпт — это техническое задание

Промпт как спецификация, а не заклинание

Вокруг промптинга — искусства формулировать запросы к ИИ — сложилась целая мифология. В интернете продают «секретные промпты», обещающие превратить ИИ в послушного гения. Блогеры публикуют списки «магических фраз», якобы разблокирующих скрытые возможности модели. Реальность значительно прозаичнее и значительно полезнее.