Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 10)
ARC идет еще дальше и поднимает тему эффективности. В логике ARC недостаточно решить задачу любой ценой; важно, как именно система преобразует новый опыт в рабочую стратегию. Это сближает тестирование систем ИИ не с шоу-бенчмарком, а с реальным вопросом об интеллекте: сколько проб, шагов, подсказок и вычислений нужно, чтобы адаптироваться.
Это особенно важно сейчас, когда лучшие результаты все чаще достигаются не "голой" моделью, а сложной инженерной обвязкой: поиском, циклами уточнения, проверяющими модулями, переранжированием и внешними инструментами. Все это полезно и само по себе представляет реальный путь развития систем. Но с точки зрения измерения близости к AGI возникает вопрос: мы наблюдаем рост общего интеллекта модели или рост качества инженерной обвязки вокруг нее?
Честный ответ обычно звучит так: и то и другое, но в разной пропорции.
Что измеряют существующие бенчмарки, а что нет
Если свести текущее поле к простой карте, получится такая картина.
1. Широкие экзамены
Примеры:
GPQA
MMMU
Humanity's Last Exam
Что они дают:
ширину знаний;
часть сложного рассуждения;
полезный стресс-тест на "неочевидные" вопросы.
Чего они не дают:
длинного горизонта;
устойчивой автономии;
работы в реальной среде;
надежной оценки того, сможет ли система сама довести проект до конца.
2. Бенчмарки общих ассистентов
Пример:
GAIA
Что они дают:
сочетание рассуждения, веб-поиска, мультимодальности и работы с инструментами;
более жизненные задачи, чем стандартный экзамен;
ранний прокси поведения общего ассистента.
Чего они не дают:
полной проверки на многодневную автономию;
хорошего измерения устойчивости под высокой ценой ошибки;
гарантии, что перенос пойдет в организационную или научную работу.
3. Инженерные и кодовые бенчмарки
Пример:
SWE-bench
Что они дают:
хороший стресс-тест для длинного контекста, запуска кода и координации изменений;
ранний индикатор того, где ИИ может быстро приблизиться к экономически значимому уровню.
Чего они не дают:
общего интеллекта как такового;
понимания того, как модель поведет себя вне программной инженерии;
четкого разделения возможностей модели и возможностей обвязки.
4. Бенчмарки работы за компьютером
Пример:
OSWorld
Что они дают:
реальную интерактивную среду;
многошаговую работу с приложениями;
более честную картину ограничений агентных систем.
Чего они не дают:
широкого доказательства переноса между доменами;
оценки долгих автономных проектов на уровне дней и недель;
полного приближения к физическому миру.
5. Бенчмарки новизны и адаптации
Примеры:
ARC-AGI
ARC-AGI-3
Что они дают:
давление на обобщение, а не только на воспроизведение;
попытку измерять эффективность обучения;
более сильный сигнал в сторону "общей" способности, а не накопленного корпуса знаний.
Чего они не дают:
прямой оценки практической полезности в офисе, на производстве или в науке;
достаточной защиты от всех новых форм переобучения навсегда;
полной связи с экономическим воздействием.
6. Метрики автономного горизонта
Пример: