Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 18)

Шрифт

В марте Anthropic выпустила семейство Claude 3. Это был еще один знак того, что передний край разработки перестал быть историей одной-двух моделей. Важно и то, что Anthropic сразу заняла более выраженную позицию по безопасности и оценке рисков, что позже сильно повлияет на всю архитектуру споров об AGI.

В мае OpenAI выпустила GPT-4o. С технологической точки зрения это был переход к более нативной мультимодальности и более естественному человеческо-компьютерному взаимодействию: голос, изображение, низкая задержка. С точки зрения общественного восприятия это был почти спектакль. Но историческое значение в другом: ИИ начал выглядеть не как система, которую нужно "запрашивать", а как система, с которой можно взаимодействовать в реальном времени.

Тем временем Google продолжила линию агентности и длинного контекста. На I/O 2024 компания показала Project Astra и новую волну Gemini-обновлений, прямо связывая мультимодальность, длинный контекст и будущее ИИ-помощников. Это еще не были зрелые агенты в продакшене, но уже был очень явный поворот в сторону систем, которые должны не только отвечать, но и наблюдать, действовать и сопровождать пользователя в среде.

Летом 2024 года Anthropic добавила Claude 3.5 Sonnet, а вместе с ним – Artifacts, то есть более продуктовый и интерактивный режим совместной работы с результатом модели. Это тоже легко недооценить. Но на длинной дистанции именно такие изменения продуктового слоя превращают модель из "источника ответа" в "рабочую среду".

Осенью 2024 года произошел еще один перелом: OpenAI показала o1, первую публичную серию моделей рассуждения, обученных тратить больше времени на размышление перед ответом. Это не было доказательством подлинного мыслительного процесса в человеческом смысле. Но это было важное инженерное событие: ведущие лаборатории открыто перешли к ставке на вычисления во время вывода и постобучение, ориентированное на рассуждение как отдельную линию прогресса.

И почти одновременно стало ясно, что гонка больше не ограничивается США. 19 сентября 2024 года Alibaba Cloud представила более ста моделей Qwen 2.5 с открытыми весами. Это событие важно не конкретным числом релизов, а стратегическим сигналом: Китай делал ставку не только на догоняющее качество, но и на масштаб диффузии, экосистему моделей с открытыми весами и инфраструктурную массовость.

Если попытаться в двух словах описать 2024 год, получится так: отрасль перестала спорить только о том, кто лучше пишет текст, и начала строить системы с длинной памятью, мультимодальностью, слоем рассуждения и первыми признаками агентности.

Четвертый перелом: 2025 год сделал агентов продуктом, а не обещанием

В 2024 году агентность уже была в воздухе. В 2025-м она стала продуктовой категорией.

23 января 2025 года OpenAI представила Operator, предварительную исследовательскую версию агента, который может пользоваться собственным браузером, печатать, кликать и скроллить в веб-интерфейсах. Это был важный момент не потому, что Operator уже был достаточно надежен для полной автономии. Напротив, сама OpenAI подчеркивала ограничения и необходимость пользовательского контроля. Но исторически важно другое: передовая модель впервые была публично упакована не просто как отвечающая система, а как агент для работы за компьютером.

Через десять дней, 2 февраля 2025 года, OpenAI запустила Deep Research – агентную функцию для многошагового интернет-исследования, которая, по описанию компании, находит, анализирует и синтезирует сотни источников. Здесь агентность вышла за пределы взаимодействия с интерфейсом и стала претендовать на более сложную интеллектуальную работу: поиск, фильтрацию, чтение PDF, сбор аргументов, построение отчета.

В марте 2025 года Google DeepMind показала сразу два ключевых направления.

Во-первых, 12 марта 2025 года была представлена Gemini Robotics, то есть попытка связать мультимодальное пространство рассуждения Gemini с физическим миром. Это не означало мгновенного прихода AGI в физическом мире. Но это означало, что передний край разработки начинает явно тянуться от цифровой агентности к физическому действию.

Во-вторых, 25 марта 2025 года Google представила Gemini 2.5, описав его как модель с режимом рассуждения и встроив этот режим прямо в основную модельную линию. Это очень показательно: если в конце 2024 года режим рассуждения выглядел как отдельная экспериментальная ветвь, то к весне 2025 года он уже стал мейнстримной частью конкуренции между ведущими лабораториями.

У Anthropic в 2025 году произошел свой крупный скачок. 22 мая 2025 года компания выпустила Claude 4, где акцент был поставлен на программировании, продвинутом рассуждении и агентах, а расширенный режим рассуждения с работой с инструментами вынесен в отдельную продуктовую возможность. Это важно не как рекламный слоган, а как маркер приоритетов: если ведущие компании одновременно вкладываются в рассуждение плюс работа с инструментами, значит, именно эта комбинация рассматривается как ближайший путь к следующим скачкам возможностей.

Осенью 2025 года этот вектор только усилился.

Anthropic выпустила Claude Sonnet 4.5, прямо позиционируя модель как одну из лучших для агентов реального мира, программирования и работы за компьютером. Google в октябре 2025 года представила Gemini 2.5 Computer Use model, специализированную модель для взаимодействия с интерфейсами. А еще раньше, в декабре 2024 года, Google уже говорила о Gemini 2.0 как о модели для агентной эпохи, с нативными возможностями действий в интерфейсе, композиционными вызовами функций и нативной работой с инструментами.

Параллельно усиливался китайский контур. 20 января 2025 года DeepSeek выпустила DeepSeek-R1, подчеркнув масштабное обучение с подкреплением на этапе постобучения и лицензию MIT для открытого распространения весов и выходов модели. Это был один из самых важных моментов всей истории моделей с открытыми весами: способности к рассуждению и рецепты постобучения перестали быть почти исключительно западным активом переднего края.

Если суммировать 2025 год, получится жесткий вывод: к этому моменту ведущие компании больше не спорили о том, умеет ли модель хорошо говорить. Они спорили о другом:

насколько долго она умеет думать;

насколько хорошо пользуется инструментами;

насколько уверенно действует в интерфейсах;

насколько пригодна для кода, ресерча и рабочих процессов;

насколько это можно масштабировать как продукт.

Именно здесь разговор о близости AGI стал гораздо серьезнее.

Пятый перелом: начало 2026 года показало не новый тренд, а сходимость уже сформировавшихся линий

На рубеже 2025–2026 годов отрасль перешла в новый режим. Прорывом стало уже не появление одной способности, а сходимость нескольких линий прогресса.

2 февраля 2026 года OpenAI представила приложение Codex как интерфейс для управления несколькими агентами сразу.

3 февраля 2026 года Apple встроила агентное программирование в Xcode 26.3, прямо указав поддержку Claude Agent и OpenAI Codex.

5 февраля 2026 года OpenAI выпустила GPT-5.3-Codex, позиционируя его как модель для агентного программирования.

В те же дни Anthropic вывела Claude Opus 4.6, а затем 17 февраля 2026 года – Claude Sonnet 4.6, усилив линии программирование, работу за компьютером, рассуждение на длинном контексте и агентное планирование.

Это уже не похоже на независимые эксперименты нескольких лабораторий. Это похоже на индустриальный консенсус: следующая фаза конкуренции – это агенты, работающие в реальных цифровых средах.

Точно так же выглядит и китайская линия.

17 февраля 2026 года Alibaba выпустила Qwen3.5, описав его как шаг к нативным мультимодальным агентам.

В публичном позиционировании DeepSeek на март 2026 года DeepSeek-V3.2 описывается как модель, ориентированная прежде всего на рассуждение и созданная для агентных сценариев, а техническая документация отдельно выделяет режим мышления при работе с инструментами.

Это означает, что китайский блок не просто копирует западную дорожную карту. Он участвует в формировании того же нового стандарта передовых систем: рассуждение + инструменты + агенты + открытая диффузия.

Наконец, 5 марта 2026 года OpenAI представила GPT-5.4, объединив в одной линии рассуждение, программирование и агентные рабочие процессы для профессиональной работы. К этому моменту уже трудно было говорить о "разрозненных релизах". Слишком многие независимые линии – OpenAI, Anthropic, Google, Alibaba, DeepSeek, Apple как крупная платформа – начали указывать в одну сторону.

Это и есть причина, по которой ускорение стало очевидным.

Не потому, что одна компания громко объявила о чуде.

Не потому, что один бенчмарк внезапно был побит.

А потому, что:

рассуждение стало отдельной и центральной линией развития;

длинный контекст перестал быть экзотикой;

работа с инструментами и работа за компьютером вышли из демо в продукты;

агенты для программирования вошли в реальные среды разработки;

экосистема моделей с открытыми весами ускорила диффузию;

Китай перестал быть периферией переднего края.

Таблица ускорения

Дата | Событие | Почему это важно

30 ноября 2022 | Публичный запуск ChatGPT | ИИ стал массовым интерфейсом

14 марта 2023 | GPT-4 | скачок возможностей сделал скачок очевидным

17 18 19 Вперед