Сергей Железнов – Искусственный общий интеллект: насколько он близок и чем это грозит (страница 14)
Это один из самых важных вопросов в эпоху агентных систем.
Если лидерборд сравнивает целые pipelines, он уже не является чистым сравнением моделей.
5. Насколько задача похожа на реальную среду?
Экзаменационная задача, IDE, браузер, офисный рабочий процесс, физический мир – это разные уровни приближения к реальности.
6. Что происходит на длинном горизонте?
Минуты, часы, дни и недели – это разные миры.
Почти все системные преувеличения рождаются именно на переходе между ними.
7. Что известно о профиле ошибок?
Система просто иногда ошибается или системно уверена в ложных ответах?
Для областей с высокой ценой ошибки это принципиально разный режим.
Итог главы
Демонстрации и бенчмарки нужны. Без них разговор об AGI быстро распадается на чистую философию и маркетинг. Но почти каждый бенчмарк и почти каждая демонстрация имеют встроенное смещение в сторону переоценки близости. Причины повторяются:
тесты насыщаются;
данные протекают;
скрытые наборы устаревают;
лидерборды начинают сравнивать обвязки, а не модели;
демонстрации показывают лучшие траектории;
реальная среда оказывается сложнее лаборатории;
точность маскирует плохую калибровку.
Поэтому главный принцип этой главы можно сформулировать жестко:
чем легче результат переслать в соцсети, тем осторожнее его надо читать как сигнал приближения к AGI.
Сильным сигналом является не один рекорд. Сильным сигналом является ситуация, когда:
новый бенчмарк остается трудным после публичности;
результаты подтверждаются на скрытых и обновляемых тестах;
прогресс сохраняется в реальной среде;
длинный горизонт не ломает систему;
высокая точность сопровождается хорошей калибровкой;
прирост не сводится к новой дорогой обвязкирхитектуре.
Пока этого нет, бенчмарк-ы лучше понимать не как "доказательство почти AGI", а как карту локальных прорывов и локальных иллюзий. Они очень полезны. Но только если читать их с инженерной подозрительностью.
Что важно запомнить
Хороший бенчмарк со временем стареет и теряет диагностическую силу.
Публичная таблица результатов часто измеряет не только модель, но и всю агентную систему вокруг нее.
Скрытый тестовый набор помогает, но не гарантирует защиту от структурного переобучения.
Демонстрация почти всегда показывает удачную траекторию, а не типичную надежность.
Чем ближе оценка к реальной среде, тем обычно честнее и ниже результат.
Точность без калибровки легко создает иллюзию прогресса.
Для оценки близости AGI важны не отдельные рекорды, а сходимость устойчивых сигналов на разных типах тестов.
Глава 7. История ложных рассветов: почему прошлые прогнозы так часто ошибались
У каждой технологической эпохи есть любимая иллюзия: мысль, что именно сейчас история наконец-то перестала ошибаться. В ИИ эта иллюзия особенно сильна. Новый скачок выглядит настолько убедительно, что возникает почти непреодолимый соблазн сказать: на этот раз все по-настоящему, а раньше были лишь черновики.
История искусственного интеллекта действует отрезвляюще. Она не говорит, что прогресс в ИИ всегда был мнимым. Она говорит нечто более неприятное: поле снова и снова принимало частичный успех за приближение общего решения.
Этот цикл повторялся достаточно много раз, чтобы относиться к нему не как к случайности, а как к структурной особенности самой темы:
ранний успех;
слишком широкие обещания;
инвестиционный и институциональный оптимизм;
столкновение с реальной сложностью мира;
охлаждение ожиданий.
История ИИ наказывает за две симметричные ошибки. Первая ошибка – объявить победу слишком рано. Вторая – решить после очередного разочарования, что и нынешний прогресс тоже наверняка мираж. Хорошая историческая память нужна как раз затем, чтобы не впадать ни в одну из этих крайностей.
Почему ИИ так склонен к ложным рассветам
Мелани Митчелл в работе Why AI is Harder Than We Think описывает повторяющийся паттерн: ИИ вновь и вновь переживает периоды оптимистических прогнозов и больших инвестиций, за которыми следуют разочарование и сокращение доверия, потому что развитие человекоподобного интеллекта оказывается намного труднее, чем первоначально кажется.
Это сильная формулировка, потому что она объясняет не только историю отдельных школ, но и более общую психологию поля. ИИ особенно подвержен ложным рассветам по одной глубокой причине: интеллект выглядит ближе, чем он есть на самом деле, всякий раз, когда машина уверенно осваивает один яркий слой задачи.
Обычно картина разворачивается так. Система показывает впечатляющий результат в одном узком, но наглядном классе задач. Наблюдатели делают следующий, почти автоматический шаг: если одна важная часть интеллекта уже взята, значит и остальное где-то рядом. Потом оказывается, что за локальным успехом скрывается другой, куда более трудный этаж требований: перенос, здравый смысл, устойчивость, работа в шумных и плохо формализованных средах, память, причинное понимание, длинный горизонт действий.
Так возникает ложный рассвет. Не потому, что результата не было. А потому, что результат слишком быстро превращают в рассказ о близости общего интеллекта.
Первый большой урок: ранний оптимизм 1950–1960-х
У истоков ИИ стояла не только сильная научная интуиция, но и поразительная уверенность в скорости прогресса. Само рождение области создавало почти электрическое ощущение, что главное уже понято, а дальше вопрос лишь в инженерной доводке.
В этом оптимизме было много рационального. Первые программы действительно выглядели почти чудом: машина рассуждает, ищет решение, играет, доказывает. Для своего времени это был не трюк и не пустая демонстрация. Это был реальный научный прорыв.
Проблема начиналась в момент экстраполяции.
Ранние успехи возникали в очень специальных условиях:
в маленьких игрушечных мирах;
в формальных задачах;
в ограниченных пространствах поиска;
при сильно упрощенных представлениях о восприятии, языке и реальном мышлении.
Иначе говоря, поле рано увидело, что некоторые фрагменты интеллекта можно формализовать. Но оно слишком быстро решило, что вслед за этим почти автоматически поддастся и весь остальной интеллект. Это был первый большой самообман эпохи ИИ: спутать доказательство принципа с доказательством близости цели.
Лайтхилл и первый холодный душ
Один из самых известных переломов пришелся на 1973 год. Отчет Джеймса Лайтхилла Artificial Intelligence: A General Survey, подготовленный для британского Science Research Council, подверг область ИИ резкой критике и стал важным фактором сокращения поддержки ряда направлений исследований ИИ в Великобритании.
В ретроспективе Лайтхилл иногда выглядит просто как человек, который "не поверил в будущее". Это слишком удобная трактовка. Историк Джон Агар показывает, что отчет был не только актом скепсиса, но и требованием более жесткой связи между обещаниями ИИ и реально продемонстрированными результатами.