Роман Ямпольский – ИИ: Необъяснимый, непредсказуемый, неконтролируемый (страница 5)
Любого состояния можно достичь бесконечным количеством способов. Подавляющее большинство этих способов неприемлемы и небезопасны, у многих из них есть отрицательные побочные эффекты. В более сложных задачах и в большинстве реальных случаев даже общая цель системы может быть неизвестна или известна лишь в абстрактной формулировке, такой как «сделать мир лучше». В некоторых случаях можно узнать конечную цель, но даже если мы научимся предсказывать общий результат с некой статистической значимостью, невозможно будет спрогнозировать все шаги превосходящего интеллекта на пути к цели. Более низкий интеллект не может точно предсказать все решения более высокого интеллекта. Эта концепция известна как принцип Винджа [42]. «Принцип Винджа подразумевает, что, когда один агент разрабатывает другой (или модифицирует собственный код), он должен утвердить схему другого агента, не зная в точности его дальнейших действий» [43].
2.2. Предсказуемость: что мы можем предвидеть. Обзор литературных источников
В свое время Вернор Виндж отметил в своей статье о технологической сингулярности [22], что сверхинтеллектуальные машины создадут непредсказуемое будущее. Автор говорит о горизонте прогнозирования непознаваемого (см. также тезис о горизонте событий [44]), за которым человек уже не может что-либо предсказать: «Пожалуй, первыми осознали практические последствия писатели-фантасты. Именно авторов твердой НФ[14] интересует потенциальное воздействие технологий на людей. Но на пути к грядущему писатели все чаще останавливаются перед непрозрачной стеной. Когда-то они отодвигали фантазии об умных машинах на миллионы лет вперед, но теперь они видят, как их самые тщательные экстраполяции привели к непознаваемому…» [22]. Однако не все согласны с этим мнением [45]. В данном разделе приводятся примеры из литературных источников, которые утверждают, что свойства интеллектуальных систем вполне могут оказаться предсказуемыми.
Ник Бостром в своем отклике на работу Винджа под названием «Сингулярность и предсказуемость» говорит [46]: «Не уверен, что непредсказуемость сохранится… Думаю, мы можем достаточно достоверно предсказать даже кое-что, находящееся за пределами сингулярности. Например то, что сверхинтеллектуальная сущность, возникшая в сингулярности, запустит сферическую волну колонизации, которая распространится в пространстве со скоростью, близкой к скорости света… Другой пример: если существует несколько независимых конкурирующих агентов (хотя, подозреваю, их может и не быть), некоторые аспекты их поведения, возможно, окажутся предсказуемы в плане экономической целесообразности… Также может намного повыситься точность прогнозирования. Поскольку сверхинтеллект или постлюди, которые будут править миром после сингулярности, будут созданы нами – а возможно, и
Аналогичные возражения мы встречаем у Майкла Нильсена [47]: «Что означает “непознаваемое”? Мне кажется, Виндж использует термин непознаваемого в значении “непредсказуемого”, поэтому правильный вопрос – должно ли будущее после пришествия доминирующего ИИ непременно стать непредсказуемым?.. Мне кажется нелепым считать, что мы неспособны сделать успешные прогнозы о мире доминирующего ИИ. Да, все изменится. Возможно, наши прогнозы окажутся не так правдоподобны, как раньше. Но я верю, что мы все еще можем делать обоснованные прогнозы на будущее. В крайнем случае, можно исключить некоторые варианты. Например, можно исключить то, чего не позволят законы физики. В отношении “непредсказуемости” будущего под властью ИИ часто звучит утверждение, что возможно будет все, что допускают законы физики» [47].
Авторы статей на платформе Arbital, обсуждая неопределенность Винджа, пишут: «Кроме того, наша способность размышлять о более умных агентах, чем мы сами, не ограничена знанием конкретной цели и предсказанием пути ее достижения. Если мы обнаружим огромную, виртуозно сконструированную инопланетную машину, мы сможем предположить, что инопланетяне превосходят человека по уровню интеллекта, даже если нам ничего не известно об их целях. Когда мы видим металлические трубы, мы можем предположить, что трубы – это устойчивая, оптимальная механическая конструкция, так сделанная из твердого металла, чтобы сохранять свою форму. Увидев сверхпроводящие кабели, мы можем предположить, что это способ эффективной передачи электричества из одного места в другое, даже не зная об их конечном предназначении. Это и есть инструментальная конвергенция[15]: если мы понимаем, что инопланетная машина эффективно получает и распределяет энергию, мы, вероятно, видим в ней разумно устроенный артефакт, служащий некой цели, хотя сама цель нам неизвестна» [31].
«Неопределенность Винджа – особое состояние познания, в котором мы рассматриваем достаточно интеллектуальные программы. В частности, мы в меньшей степени уверены в том, что сможем точно предсказать их действия, но в большей степени уверены в результате этих действий. (Обратите внимание – здесь нет утверждения, будто мы гносеологически беспомощны и ничего не можем знать о существах умнее нас.)» [31]. Юдковский с Херрешоффом еще раз подчеркивают: «Мы не можем точно предсказать действия более умного агента, но мы способны по его устройству предсказать последствия работы этого агента или выбрать одно из ряда возможных последствий путем отбора одной из возможных конструкций» [48].
Аргументы против непредсказуемости обычно делятся на два типа:
1) «Очевидная известность определенной области. Например, раз мы с высокой точностью изучили законы химии и знаем их истоки в молекулярной динамике, мы можем считать, что даже произвольный интеллектуальный агент не сумеет превратить свинец в золото с помощью химических реагентов, не обладающих радиоактивностью…
2) …Обратный логический вывод из парадокса Ферми[16], который в некоторой степени свидетельствует об ограниченных возможностях даже самых мощных агентов, какие могут существовать в нашей вселенной. Например, стандартное моделирование физических процессов все еще может преподнести нам сюрпризы, но любое незапланированное путешествие на сверхсветовой скорости в ранее недоступную точку сильно затруднит объяснение парадокса Ферми» [49].
На более практическом примере предсказуемости Израэли и Голденфельд «…обнаружили, что вычислительно несводимые физические процессы можно прогнозировать и даже свести путем вычислений на грубом уровне описания. Полученные нами грубые данные [клеточные автоматы] эмулируют поведение исходных систем в целом, без учета мелких деталей» [50]. Дальнейшая работа над безопасностью ИИ будет в основном заключаться в том, чтобы определить, какие аспекты интеллектуальных машин можно прогнозировать и знать, даже если большая часть будущих состояний навсегда останется для нас непредсказуемой. В следующем разделе рассматриваются первые шаги на этом пути.
2.3. Когнитивная невместимость
Machine Intelligence Research Institute (MIRI), ведущая исследовательская организация в области безопасности ИИ, рассматривает непредсказуемость в рамках работы над безопасным самосовершенствованием агентов ИИ, обозначая ее как