Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 13)

Шрифт

Для разговора об AGI это критично. Если прогресс обеспечивается в основном все более сложной внешней оркестрацией, это не обязательно приближает нас к общему интеллекту так быстро, как кажется по красивой цифре.

Демо системно завышают впечатление по другой причине: они показывают выбранную траекторию

С бенчмарками все относительно понятно: там хотя бы есть формализованная процедура. С демо ситуация сложнее.

Хорошее демо почти по определению показывает удачную траекторию. Это не значит, что его авторы обязательно что-то скрывают. Просто демо – жанр, в котором нельзя показать все пространство состояний. Если система способна пройти задачу в одной из десяти траекторий, на сцене вы увидите именно эту одну.

Отсюда возникает повторяющаяся ошибка интерпретации. Зритель видит:

браузер, которым пользуется модель;

код, который она пишет;

форму, которую она заполняет;

график, который она строит;

окно терминала, где она "как будто работает".

И делает естественный, но часто неверный вывод: раз система может сделать это один раз, значит, она умеет это делать как устойчивую практику.

Реальная проверка начинается там, где демо заканчивается:

что происходит на сотой задаче;

как система ведет себя при неожиданном состоянии интерфейса;

сколько нужно повторных попыток;

сколько ручных ограничений вшито в обвязку;

как быстро она теряет цель;

как часто она уверенно ошибается.

Официальные документы компаний сами по себе часто намного осторожнее публичных впечатлений. OpenAI в документации по работе за компьютером прямо советует сравнивать не красивые примеры, а реальные метрики продукта: время завершения, поведение при неожиданном состоянии интерфейса, способность оставаться в рамках правил и необходимость держать человека в контуре для высокоставочных действий. Там же компания прямо рекомендует изолированную среду и человека в контуре для чувствительных действий. Это язык не победного пресс-релиза, а инженерной осторожности. И его надо читать буквально: даже когда демонстрация выглядит впечатляюще, система может оставаться недостаточно надежной для самостоятельной работы без надзора.

Здесь полезно держать в голове простое правило:

демонстрация показывает существование способности; бенчмарк пытается измерить ее частоту; реальный мир выясняет ее надежность.

И почти всегда эти три вещи сильно различаются.

Реальная среда ломает иллюзию быстрее всего

Поэтому так важны бенчмарки вроде OSWorld.

Его авторы начали с очень простой претензии к существующим оценкам: многие из них либо вообще не дают интерактивной среды, либо ограничены слишком узким типом приложений и поэтому плохо отражают настоящую сложность компьютерного использования. В ответ они собрали масштабируемую реальную среду с задачами на Ubuntu, Windows и macOS, с веб-приложениями, файловыми операциями и многошаговыми рабочими процессами между разными приложениями.

Главный результат из абстракта OSWorld должен отрезвлять любого, кто делает выводы по отдельным демонстрациям: люди выполняют больше 72% задач, а лучшая модель – только 12.24%. Это не значит, что модели для работы за компьютером слабы в абсолютном смысле. Это значит, что как только мы переносим их из красивой демонстрации в широкую, грязную, разнообразную среду, реальная способность оказывается намного уже, чем кажется по роликам.

И это, пожалуй, главный структурный вывод всей главы: чем ближе бенчмарк к реальному миру, тем обычно ниже и честнее оказываются результаты.

Это касается не только агентов пользовательского интерфейса. Похожая логика работает и в научных, и в кибер-, и в инженерных задачах. Даже OpenAI в o1 System Card специально оговаривает, что хорошее прохождение коротких интервью по машинному обучению не равнозначно реальному машинному исследованию длительностью в месяцы и годы. Такая оговорка кажется очевидной, но именно ее почти всегда игнорируют в медиа. Переход от короткой формализованной задачи к длинной неформализованной работе – это не прибавка на десять процентов. Это другой режим сложности.

Еще одно искажение: бенчмарк может скрывать не только слабость, но и опасную уверенность

Есть и более тонкая проблема. Даже если бенчмарк не протек, не насыщен и измеряет что-то полезное, он все равно может скрывать, как именно система ошибается.

Humanity's Last Exam поэтому важен не только как сложный экзамен, но и как бенчмарк, который делает видимой калибровку. На странице лидерборда прямо подчеркивается: одних точных ответов мало, нужно смотреть и на ошибку калибровки. Авторы отмечают систематическую картину: многие модели показывают низкую точность в сочетании с высокой уверенностью, то есть склонны к уверенной конфабуляции. В полной статье об HLE та же мысль сформулирована еще яснее: передовые языковые модели демонстрируют низкую точность и низкую калибровку на задачах у границы человеческого знания.

Это имеет прямое отношение к AGI. Общий интеллект, если он действительно приближается, нельзя оценивать только по среднему баллу. Не менее важно понимать:

знает ли система, когда она не знает;

умеет ли она останавливаться;

различает ли уверенность и догадку.

Бенчмарк, который показывает только "процент решенных задач", но ничего не говорит о профиле ошибок, слишком легко превращается в инструмент самообмана.

Почему это особенно важно именно сейчас

Во времена более слабых моделей проблема была проще: почти все видели, что системы ограничены. Сегодня ограничения хуже заметны именно потому, что лучшие модели уже умеют слишком много.

Они:

пишут код;

решают сложные экзамены;

пользуются инструментами;

работают с длинным контекстом;

иногда выглядят почти автономно.

Из-за этого даже небольшое переоценивание на бенчмарке начинает иметь большой риторический эффект. Достаточно еще одного лидерства, еще одной демонстрации, еще одного слова человеческий уровень, чтобы публичное воображение сделало скачок от "сильная модель" к "почти AGI".

Но именно в такой момент и нужна дисциплина чтения результатов.

Если бенчмарк:

публичный и давно известный,

не защищен от утечки тестовых данных,

легко хакнуть через обвязка,

оценивает короткие задачи,

не измеряет калибровку,

плохо переносится в реальный мир,

то высокий результат на нем может быть важным инженерным фактом, но он не должен считаться сильным доказательством близости AGI.

Как читать новое демо или таблицу результатов, чтобы не обмануться

Для этой книги я бы предложил очень простую проверочную сетку. Каждый раз, когда появляется новый громкий результат, надо задать семь вопросов.

1. Что именно измеряется?

Знание? Рассуждение? Работа с инструментами? Длина задач? Работа в среде? Калибровка?

Если ответа нет, бенчмарк почти наверняка переинтерпретируют.

2. Насколько свеж тест?

Если это старый популярный бенчмарк, его надо читать с заведомой скидкой на saturation.

3. Есть ли риск загрязнения?

Публичен ли датасет? Есть ли скрытый тест? Есть ли признаки того, что авторы очистили тест от утечек?

Если нет, результат нужно считать менее надежным.

4. Что в этом результате принадлежит модели, а что обвязке?

12 13 14 15 Вперед