Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 9)
Глава 5. Как измерять дистанцию до общего ИИ
Весной 2025 года в публичном поле появились две очень разные, но на удивление совместимые картины прогресса. Первая пришла из мира бенчмарков: Stanford HAI в AI Index 2025 зафиксировал, что на новых сложных тестах вроде MMMU, GPQA и SWE-bench результаты за один год выросли резко, а не постепенно. Вторая пришла из мира агентных оценок: исследователи METR предложили смотреть не на отдельные яркие ответы модели, а на длину задач, которые система способна завершить с заданной надежностью, и получили тревожный вывод: этот горизонт в последние годы рос примерно экспоненциально.
Эти две картины вместе дают полезный урок. Прогресс реален. Но вопрос AGI уже близко или нет в такой форме почти бесполезен. Он слишком грубый. Он сводит сложный процесс к кнопке да/нет, хотя на практике нас интересует совсем другое: какие свойства уже появились, каких все еще нет, и по каким признакам можно понять, что оставшаяся дистанция резко сокращается.
Поэтому в разговоре об AGI нужен не лозунг, а измерительная рамка.
Почему бинарный вопрос почти всегда заводит в тупик
Проблема с формулой это уже AGI или еще нет в том, что она смешивает несколько разных тем:
ширину компетенций;
способность переносить навыки в новые условия;
устойчивость на длинных горизонтах;
работу с инструментами и средой;
надежность, калибровку и управляемость.
Система может выглядеть почти универсальной в одном классе задач и при этом разваливаться в другом. Она может блестяще отвечать на сложные экзаменационные вопросы и при этом проваливать многошаговую реальную работу. Она может впечатлять в программировании и быть слаба в физическом мире. Она может быть сильной в закрытом наборе тестов и хрупкой в незнакомой среде.
Франсуа Шолле еще в 2019 году сформулировал важную претензию к тому, как сообщество ИИ традиционно измеряет интеллект: навык на конкретной задаче не равен общему интеллекту, потому что высокий результат можно частично "купить" за счет данных, подгонки и заранее накопленного опыта. Если выразить эту мысль максимально просто, получится следующее: модель может быть очень сильной, но это еще не значит, что она действительно близка к человеческой способности осваивать новые задачи с ограниченным опытом.
Для разговора об AGI это ключевой пункт. Нас интересует не только то, что модель умеет, но и как она приходит к решению:
в знакомом или новом домене;
с доступом к подсказкам или без них;
в статичном тесте или в интерактивной среде;
за секунды или в рамках многочасовой задачи;
с высокой надежностью или с постоянными срывами.
Поэтому правильный вопрос звучит так: насколько система приближается к общему интеллекту по нескольким измерениям сразу.
Пять измерений, без которых нельзя оценивать близость общий ИИ
Ни один существующий тест не дает полного ответа. Но уже можно собрать рабочую панель приборов.
1. Ширина компетенций
Первое измерение очевидно: если система претендует на общий интеллект, она должна работать не в одной узкой нише, а в широком диапазоне доменов. Отсюда ценность таких тестов, как GPQA, MMMU или Humanity's Last Exam: они пытаются проверить не одну профессию и не один школьный предмет, а широкий спектр знаний и рассуждений.
Но здесь есть важное ограничение. Ширина знаний не равна общей способности действовать. Экзамен на экспертные вопросы измеряет многое, но не все. Даже разработчики Humanity's Last Exam специально оговаривают: высокая точность на HLE сама по себе еще не означает автономную исследовательскую способность или AGI. Это чрезвычайно важная честность. Хороший бенчмарк должен не только демонстрировать силу модели, но и подчеркивать собственные пределы.
Вывод простой: широкий охват предметов нужен, но его недостаточно.
2. Обобщение в новых условиях
Общий интеллект предполагает не только набор навыков, но и перенос: система должна уметь сталкиваться с новой задачей и осваивать ее без полного переобучения под конкретный тест.
Поэтому так важны бенчмарки, которые пытаются быть простыми для людей и трудными для ИИ, а также сопротивляться простому заучиванию. В логике ARC это выражено особенно ясно: важен не просто результат, а эффективность освоения нового. В будущей версии ARC-AGI-3, релиз которой на момент написания книги был объявлен на 25 марта 2026 года, акцент сделан уже не на статичных головоломках, а на интерактивных средах, где агент должен исследовать, планировать, адаптироваться и учиться в процессе.
Это сильный сдвиг в самой философии оценки. Если модель прекрасно решает публичные задачи, но ломается на реально новых средах, мы видим не общий интеллект, а границу его имитации. То же относится и к частной проблеме загрязнения тестов: даже хороший тест со временем становится хуже, если образцы, паттерны и решения успевают попасть в тренировочную экосистему. ARC Prize в декабре 2025 года прямо писал, что бенчмарки приходится эволюционировать вместе с моделями, иначе они перестают указывать на реальную дистанцию до AGI.
Вывод: хороший индикатор AGI должен измерять не только силу ответа, но и перенос на новое.
3. Длина задач и автономный горизонт
Это, вероятно, самый недооцененный параметр.
Большая часть публичного разговора об ИИ до сих пор устроена так, будто достаточно спросить у модели что-то сложное и посмотреть, ответила ли она правильно. Но реальный экономический и политический эффект определяется не этим. Он определяется тем, какие задачи система может довести до конца сама и как долго она сохраняет цель, контекст и качество работы.
Поэтому подход METR сегодня выглядит одним из самых полезных. Вместо вопроса решила ли модель конкретный тест исследователи спрашивают: какой длины задачи, измеряемые в человеческом времени, система может завершать с приемлемой надежностью. Это сильная идея по двум причинам.
Во-первых, она связывает бенчмарк с реальным миром.
Во-вторых, она снимает часть ложного драматизма с отдельных демо.
Если модель умеет впечатляюще действовать 8 минут, а потом системно сыплется на 2-часовых задачах, это не мелкая деталь, а ключевой факт о ее расстоянии до AGI.
METR в марте 2025 года писала, что длина решаемых задач у самых сильных систем росла с удвоением примерно раз в семь месяцев. Но в январском обновлении Time Horizon 1.1 организация также подчеркнула и вторую сторону картины: даже обновленный набор задач уже начинает упираться в потолок, и исследователям нужно поднимать сложность и длительность измерений, чтобы не потерять чувствительность к сильным моделям. Проще говоря, прогресс есть, но сама линейка быстро устаревает. Это типичная проблема эпохи быстрого роста.
Если пытаться свести это к одной формуле, получится так: самый полезный единичный прокси близости к AGI сегодня – не балл, напоминающий IQ, а длина и разнообразие задач, которые система может автономно завершать. Это аналитический вывод из текущего корпуса оценок, а не формальный консенсус отрасли. Но именно он лучше всего связывает возможности с реальным воздействием.
4. Работа в среде: инструменты, интерфейсы, компьютеры
AGI не обязан начинаться с робота-гуманоида. Куда более вероятно, что его ранняя форма будет сначала цифровой: система, способная читать документацию, пользоваться браузером, средами разработки, таблицами, файлами, программными интерфейсами и внутренними инструментами компании.
Отсюда ценность бенчмарков вроде GAIA, SWE-bench и OSWorld.
GAIA с самого начала был задуман как тест для ИИ-ассистентов общего назначения, которым нужны рассуждение, мультимодальность, веб-поиск и работа с инструментами. SWE-bench поставил модели в более жесткую инженерную среду: не просто написать фрагмент кода, а исправить реальную проблему в настоящем репозитории. OSWorld пошел еще дальше и сделал объектом оценки уже не текстовый ответ, а работу в реальной компьютерной среде с веб- и десктопными приложениями.
Это очень важный переход. Когда модель вступает в контакт с интерфейсом, файлами, ограничениями среды и необходимостью поддерживать состояние по шагам, исчезает большая часть магии чат-окна. Становится видно, где находится реальная способность, а где только удачное объяснение после факта.
Но и здесь нужен трезвый взгляд.
SWE-bench полезен как прокси сложной инженерной деятельности, но он все еще измеряет прежде всего один домен – программирование. OSWorld ценен тем, что дает реальную среду, но компьютерное взаимодействие все еще не равно общей интеллектуальной гибкости. Даже GAIA, один из лучших тестов на сочетание рассуждение и работу с инструментами, остается серией задач, а не полноценной проверкой многодневной автономии.
Вывод: способность работать в среде – обязательный компонент приближения к AGI. Но и он не самодостаточен.
5. Надежность, калибровка и эффективность
Последнее измерение часто недооценивают, хотя именно оно отделяет впечатляющий прототип от системы исторического масштаба.
Нас интересует не только средний результат модели, но и:
насколько стабильно она его воспроизводит;
понимает ли границы собственной уверенности;
сколько ресурсов требует для успеха;
не держится ли ее результат на чрезмерно дорогом внешнем "каркасе".
Humanity's Last Exam полезен именно тем, что явно учитывает не только точность, но и калибровку уверенности. Это правильный ход. Если модель системно уверена в ложных ответах, это не косметический недостаток. Это фундаментальное ограничение для применения в науке, безопасности, управлении и длинных агентных циклах.