Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 10)

Шрифт

ARC идет еще дальше и поднимает тему эффективности. В логике ARC недостаточно решить задачу любой ценой; важно, как именно система преобразует новый опыт в рабочую стратегию. Это сближает тестирование систем ИИ не с шоу-бенчмарком, а с реальным вопросом об интеллекте: сколько проб, шагов, подсказок и вычислений нужно, чтобы адаптироваться.

Это особенно важно сейчас, когда лучшие результаты все чаще достигаются не "голой" моделью, а сложной инженерной обвязкой: поиском, циклами уточнения, проверяющими модулями, переранжированием и внешними инструментами. Все это полезно и само по себе представляет реальный путь развития систем. Но с точки зрения измерения близости к AGI возникает вопрос: мы наблюдаем рост общего интеллекта модели или рост качества инженерной обвязки вокруг нее?

Честный ответ обычно звучит так: и то и другое, но в разной пропорции.

Что измеряют существующие бенчмарки, а что нет

Если свести текущее поле к простой карте, получится такая картина.

1. Широкие экзамены

Примеры:

GPQA

MMMU

Humanity's Last Exam

Что они дают:

ширину знаний;

часть сложного рассуждения;

полезный стресс-тест на "неочевидные" вопросы.

Чего они не дают:

длинного горизонта;

устойчивой автономии;

работы в реальной среде;

надежной оценки того, сможет ли система сама довести проект до конца.

2. Бенчмарки общих ассистентов

Пример:

GAIA

Что они дают:

сочетание рассуждения, веб-поиска, мультимодальности и работы с инструментами;

более жизненные задачи, чем стандартный экзамен;

ранний прокси поведения общего ассистента.

Чего они не дают:

полной проверки на многодневную автономию;

хорошего измерения устойчивости под высокой ценой ошибки;

гарантии, что перенос пойдет в организационную или научную работу.

3. Инженерные и кодовые бенчмарки

Пример:

SWE-bench

Что они дают:

хороший стресс-тест для длинного контекста, запуска кода и координации изменений;

ранний индикатор того, где ИИ может быстро приблизиться к экономически значимому уровню.

Чего они не дают:

общего интеллекта как такового;

понимания того, как модель поведет себя вне программной инженерии;

четкого разделения возможностей модели и возможностей обвязки.

4. Бенчмарки работы за компьютером

Пример:

OSWorld

Что они дают:

реальную интерактивную среду;

многошаговую работу с приложениями;

более честную картину ограничений агентных систем.

Чего они не дают:

широкого доказательства переноса между доменами;

оценки долгих автономных проектов на уровне дней и недель;

полного приближения к физическому миру.

5. Бенчмарки новизны и адаптации

Примеры:

ARC-AGI

ARC-AGI-3

Что они дают:

давление на обобщение, а не только на воспроизведение;

попытку измерять эффективность обучения;

более сильный сигнал в сторону "общей" способности, а не накопленного корпуса знаний.

Чего они не дают:

прямой оценки практической полезности в офисе, на производстве или в науке;

достаточной защиты от всех новых форм переобучения навсегда;

полной связи с экономическим воздействием.

6. Метрики автономного горизонта

Пример:

9 10 11 12 Вперед