Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 12)
Самый полезный вопрос сегодня: какие задачи какой длины и в каких средах система может завершать надежно.
Широкие экзамены важны, но они не равны автономии.
Работу с инструментами, программирование и работу за компьютером – сильные признаки прогресса, но еще не доказательство общего интеллекта.
Самые сильные сигналы приближения AGI: новое обобщение, длинный горизонт, надежность и эффективность адаптации.
Глава 6. Почему демо и бенчмарки системно переоценивают прогресс
Одна из самых опасных иллюзий в разговоре об AGI рождается не из фантастики, а из хороших цифр.
Модель берет новый бенчмарк.
Компания показывает уверенное демо.
Лидерборд обновляется.
Внешнему наблюдателю кажется, что осталось совсем немного.
Но именно здесь чаще всего и возникает ошибка масштаба. Не потому, что бенчмарк обязательно фальшивый. И не потому, что демо обязательно нечестное. А потому, что и то и другое почти всегда измеряет уже не то, что мы думаем.
Проблема в том, что публичный разговор об ИИ устроен вокруг легко пересылаемых сигналов:
один красивый ролик;
один лидерборд;
одна громкая метрика;
один заголовок вроде человеческий уровень.
AGI, если к нему вообще можно приближаться измеримо, не появится как один такой сигнал. Он будет скорее выглядеть как сходимость нескольких трудноподделываемых признаков. Об этом уже шла речь в предыдущей главе. Но чтобы эти признаки увидеть, сначала нужно понять, почему обычные демо и бенчмарки почти всегда заставляют нас думать, что прогресс ближе к AGI, чем он есть на самом деле.
Проблема не в наличии бенчмарков, а в их жизненном цикле
Хороший бенчмарк не вечен. В момент появления он помогает отличать сильную систему от слабой. Потом он становится частью тренировочной, посттренировочной и маркетинговой экосистемы. После этого он все хуже выполняет исходную функцию.
На март 2026 года это уже не абстрактная теория, а практически официальная позиция многих авторов самих бенчмарков.
На странице Humanity's Last Exam прямо сказано, что передовые модели быстро насыщают прежние ориентиры: такие тесты, как MMLU и GPQA, уже перестают быть сильным сигналом прогресса, потому что лидирующие модели приближаются там к человеческому уровню или превосходят его. Сам HLE был создан именно как ответ на эту проблему: если старые экзамены уже плохо различают лидеров, нужна более трудная и более свежая шкала.
Это очень важный момент. В разговоре об AGI бенчмарк надо понимать не как окончательный арбитр, а как временный инструмент измерения, который неизбежно стареет. Как только отрасль начинает публично соревноваться на одном и том же тесте, сам этот тест начинает терять диагностическую силу.
Отсюда первый принцип:
рост на популярном бенчмарке почти всегда говорит о реальном прогрессе, но слишком часто преувеличивает его масштаб.
Почему так происходит? Обычно работают сразу несколько механизмов.
Механизм первый: загрязнение, утечка и взлом логики бенчмарка
Самый очевидный источник завышения – это утечка тестовых данных в тренировочную или посттренировочную экосистему.
Проблема загрязнения тестов уже давно перестала быть теоретической. В 2024 году авторы VarBench описали ее как одну из центральных проблем оценки современных языковых моделей: как только бенчмарк становится известным, появляется риск, что ответы, паттерны или сама структура задач начнут влиять на модель либо через предобучение, либо через последующую настройку. Их ответ был радикален и логичен: не просто прятать тест, а динамически менять сами задачи, чтобы каждая новая проверка была хоть немного новой.
Похожую проблему по-своему решает MMLU-CF. Авторы этого бенчмарка прямо исходят из того, что классический MMLU слишком уязвим к непреднамеренной и намеренной утечке, поэтому строят защищенный вариант с закрытым тестовым набором и дополнительными правилами очистки от тестовых утечек. Смысл здесь не в том, что старые результаты автоматически "ложные". Смысл в том, что по мере взросления отрасли старые публичные тесты становятся слишком удобной мишенью для прямого и косвенного подгона.
Еще тревожнее выглядит картина в многоязычных бенчмарках. В октябре 2024 года авторы Contamination Report for Multilingual Benchmarks сообщили, что почти все проверенные ими популярные модели показывают признаки загрязнения тестов почти на всех протестированных многоязычных бенчмарках. Даже если оставить за скобками вопрос о точной величине эффекта для каждой конкретной модели, сам общий вывод достаточно жесткий: в среде, где модели учатся на гигантских корпусах из интернета, публичный тест со временем почти неизбежно начинает "просачиваться" в систему оценки.
Поэтому Humanity's Last Exam сразу включил в свою конструкцию дополнительный закрытый набор вопросов, предназначенный специально для измерения переобучения на публичной части. Это уже новая норма: бенчмарк больше не считается серьезным, если у него нет стратегии защиты от собственной популярности.
Но здесь важно не сделать обратную ошибку. Закрытый тест – это лучше, чем полностью публичный тест. Но и он не панацея.
Механизм второй: даже скрытый тест можно "обойти" не напрямую, а структурно
В декабре 2025 года ARC Prize опубликовал один из самых полезных текстов для понимания этой проблемы. Их вывод по ARC-AGI-1 и ARC-AGI-2 звучит неприятно, но честно: даже бенчмарк, специально спроектированный как устойчивый к прямому заучиванию, может начать частично переоценивать прогресс, если публичная и скрытая части слишком похожи, а модель обучалась на массиве публичных данных, где хорошо представлены нужные паттерны.
Если свести, переобучение может происходить не только как буквальное запоминание ответа, но и как более тонкая структурная адаптация к формату задач. ARC Prize даже привел пример, где верификационная обвязка показывала, что модель уверенно использует правильное соответствие цветов в формате ARC, хотя сама проверка напрямую не упоминала бенчмарк. Для создателей ARC это стало сильным сигналом: бенчмарк уже настолько "врос" в модельную экосистему, что одной приватности тестового набора недостаточно.
Ответом на это стала не капитуляция, а ужесточение дизайна. Сначала появился ARC Prize Verified с внешней академической панелью и сертификацией результатов на скрытых наборах. Затем команда ушла еще дальше и начала готовить ARC-AGI-3 как интерактивный бенчмарк нового формата, ориентированный уже не просто на статичное решение головоломок, а на исследование, планирование, память, приобретение целей и эффективность обучения.
Это полезный урок: как только бенчмарк становится культурным объектом, его приходится постоянно пересоздавать. Иначе он начинает измерять не "расстояние до AGI", а "расстояние до хорошей инженерии бенчмарка".
Механизм третий: таблица результатов часто измеряет не модель, а систему вокруг модели
Это, возможно, самый недооцененный источник искажения.
Когда широкая аудитория смотрит на таблицу результатов, она обычно думает, что видит прямое сравнение моделей. Но на практике многие современные таблицы результатов сравнивают не "голый интеллект модели", а целые агентные системы, в которых смешаны:
базовая модель;
системный запрос;
извлечение контекста;
цикл планирования;
повторные попытки;
голосование между вариантами;
внешние инструменты;
исполнение кода;
проверяющий модуль;
этап проверки;
вручную настроенная обвязка.
Это не жульничество, а реальный путь развития полезных систем. Проблема в другом: такую таблицу результатов легко перепутать с показателем общей способности самой модели.
SWE-bench Verified честно показывает эту проблему на собственной странице. Там прямо сказано, что полная таблица результатов сравнивает очень разные типы систем: от простых агентных циклов на базе языковых моделей до RAG-систем, решений с несколькими прогонами и многоэтапных конвейеров проверки. Поэтому авторы отдельно держат режим Bash Only, где модели оцениваются через минимального программного агента для SWE-bench и простую ReAct-петлю без специальных инструментов и сложной архитектуры обвязки.
Это очень важная интеллектуальная честность. Она фактически говорит читателю: если вы хотите сравнить именно языковые модели, а не все инженерное сооружение вокруг них, вам нужен другой режим оценки.
Тот же урок следует из o1 System Card OpenAI. При тестировании на SWE-bench Verified компания прямо пишет, что сама модель o1 не поддерживает исполнение кода и редактирование файлов, поэтому для оценки использовалась внешняя обвязка с открытым кодом Agentless. Это абсолютно нормальное инженерное решение. Но его аналитическое значение такое: результат на бенчмарке здесь уже не является "чистым" результатом модели. Это результат модели плюс выбранной обвязки плюс процедуры оценки.
ARC Prize формулирует ту же проблему с другой стороны. В декабрьском анализе 2025 года они показывают, что лучший верифицированный коммерческий результат модели переднего края на ARC-AGI-2 был 37.6%, тогда как лучший refinement solution, построенный поверх Gemini 3 Pro, доходил до 54%, но уже при гораздо большей стоимости на задачу. Это почти идеальный пример того, почему таблицу результатов надо читать осторожно: она может демонстрировать реальный прогресс, но одновременно скрывать вопрос, какая часть прироста пришла из модели, а какая – из дорогой и умной обвязки вокруг нее.