Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 11)
METR горизонта задач
Что они дают:
самую прямую связку между возможностями и реальной работой;
измерение длинных задач;
возможность обсуждать приближение к AGI без псевдофилософии.
Чего они не дают:
единственной универсальной цифры;
полного охвата физических, социальных и организационных сред;
автоматического ответа на вопрос о безопасности или управляемости.
Главный вывод из этой карты прост: AGI нельзя измерить одним тестом. Но уже можно измерять его приближение по набору согласованных индикаторов.
Рабочая панель приборов: по каким признакам дистанция действительно сокращается
Если убрать маркетинг, я бы предложил для этой книги следующую панель наблюдения.
Признак 1. Модели стабильно проходят скрытые и обновляемые тесты на новое обобщение
Не публичные демо. Не одна красивая трасса. А регулярные результаты на задачах, которые:
не протекли в обучающую экосистему;
обновляются;
проверяют перенос, а не воспроизведение.
Признак 2. Горизонт автономной работы сдвигается из минут и часов в дни
Это один из самых сильных сигналов. Если модели начинают надежно закрывать не куски работы, а целые проекты, разговор об AGI резко меняет статус.
Признак 3. Переход между доменами перестает быть болезненным
Система должна быть сильной не только в коде или экзаменах, но и в нескольких принципиально разных средах:
инженерной;
исследовательской;
офисной;
компьютерной;
мультимодальной.
Признак 4. Снижается разрыв между успехом на бенчмарках и надежностью в реальном мире
Сейчас этот разрыв все еще велик. Хорошая система может блистать в режиме бенчмарка и быть слишком хрупкой в операционной реальности. Если этот разрыв начнет системно сокращаться, это будет сильнее любой пресс-конференции.
Признак 5. Улучшается калибровка
Сильная система будущего должна не только решать больше задач, но и лучше понимать, когда она не знает ответа. Это особенно важно для областей с высокой ценой ошибки.
Признак 6. Растет эффективность, а не только валовая мощность
Если каждый новый рывок требует несоразмерно более дорогой инженерной обвязки и вычислительных затрат, это говорит не только о прогрессе, но и о хрупкости траектории. Настоящее приближение к AGI будет видно и по тому, что системы начинают учиться и адаптироваться экономнее.
Признак 7. Прогресс переносится из "верифицируемых" задач в менее формализованные
Сегодня особенно быстрый прогресс виден там, где среда дает модели ясную и быструю обратную связь: тесты, код, формальные задачи, замкнутые среды. Это очень важно, но признаки общего интеллекта начнут ощущаться по-настоящему тогда, когда перенос станет устойчивым и в менее чистых контекстах.
Что не стоит считать сильным доказательством приближения общий ИИ
Такой список не менее важен, чем список сигналов.
Не являются сильным доказательством сами по себе:
лидерство в одном бенчмарке;
блестящее демо от компании;
рост длины контекста;
высокий результат на знаниях без проверки автономии;
успех в программировании без переноса в другие среды;
успех агентной обвязки, если неясно, насколько вклад идет от модели, а насколько от внешней обвязки;
единичные результаты на уровне человека в специально подобранных задачах.
Это не значит, что такие сигналы не важны. Это значит, что они почти всегда переинтерпретируются рынком и медиа.
Практический вывод
Если свести все это к одной аналитической позиции, она будет такой.
AGI нельзя честно объявить по одному порогу. Но дистанцию до него уже можно измерять не на уровне интуиции, а на уровне признаков. Самые важные из них сегодня:
перенос на новые задачи;
длина автономного горизонта;
работа в реальной цифровой среде;
надежность и калибровка;
эффективность адаптации.
Из существующих подходов самый полезный для разговора о реальном воздействии – это метрика длины задач, предложенная METR. Самый полезный для разговора о новизне и эффективности обучения – это линия ARC и, вероятно, ARC-AGI-3, который на момент написания еще не вышел, но уже задает правильное направление. Самые полезные для оценки практической экономической близости – это SWE-bench, GAIA и OSWorld, потому что они связывают возможности с реальной работой, а не только с красивой теоретической задачей.
Но главный вывод другой: ни один из этих тестов не должен получить монополию на определение AGI. В тот момент, когда индустрия или медиа начнут сводить такой вопрос к одному числу, они снова потеряют контакт с реальностью.
Разумнее думать о приближении AGI как о сходимости нескольких кривых сразу. Когда модели одновременно:
проходят новые тесты на обобщение;
держат длинный горизонт;
надежно работают в среде;
сохраняют калибровку;
не разваливаются вне узкой ниши,
тогда разговор о "дистанции" становится уже не риторикой, а инженерным фактом.
Пока мы еще не там. Но мы уже, по-видимому, ближе к точке внятного измерения, чем к точке полного незнания.
Что важно запомнить
AGI нельзя честно измерять одним бенчмарком.