Роман Ямпольский – ИИ: Необъяснимый, непредсказуемый, неконтролируемый (страница 4)

Шрифт

12. Bostrom N. Superintelligence: Paths, Dangers, Strategies. 2014: Oxford University Press[5].

13. Pfleeger S., Cunningham R. Why measuring security is hard. IEEE Security & Privacy, 2010. 8(4): p. 46–54.

14. Howe W., Yampolskiy R. Impossibility of unambiguous communication as a source of failure in Al systems, in AISafety@ IJCAI. 2021.

15. Yampolskiy R.V. AGI control theory, in Artificial General Intelligence: 14th International Conference, AGI 2021, Palo Alto, CA, USA, October 15–18,2021, Proceedings 14. 2022. Springer.

16. Yampolskiy R.V. Unexplainability and incomprehensibility of AI. Journal of Artificial Intelligence and Consciousness, 2020. 7(2): p. 277–291[6].

17. Yampolskiy R.V. Unpredictability of AI: On the impossibility of accurately predicting all actions of a smarter agent. Journal of Artificial Intelligence and Consciousness, 2020. 7(1): p. 109118[7].

18. Yampolskiy R. V. What are the ultimate limits to computational techniques: Verifier theory and unverifiability. Physica Scripta, 2017. 92(9): p. 093001[8].

19. Wang P. On defining artificial intelligence. Journal of Artificial General Intelligence, 2019. 10(2): p. 1–37.

20. Wang P. Non-Axiomatic Reasoning System: Exploring the Essence of Intelligence. 1995: Citeseer.

21. Legg S., Hutter M. Universal intelligence: A definition of machine intelligence. Minds and Machines, 2007. 17(4): p. 391–444.

22. Yampolskiy R.V. On the origin of synthetic life: Attribution of output to a particular algorithm. Physica Scripta, 2016. 92(1): p. 013002.

23. Yampolskiy R.V. Artificial intelligence safety engineering: Why machine ethics is a wrong approach, in Philosophy and Theory of Artificial Intelligence, V. C. Muller, Editor. 2013, Springer. p. 389–396.

24. Yampolskiy R.V., – Safety Engineering for Artificial General Intelligence. Topoi. Special Issue on Machine Ethics & the Ethics of Building Intelligent Machines, 2012.

25. Yudkowsky E. Complex value systems in friendly AI, in Artificial General Intelligence, J. Schmidhuber, K. Thorisson, and M. Looks, Editors. 2011, Springer. p. 388–393.

26. Yampolskiy R.V. Artificial Superintelligence: A Futuristic Approach. 2015: Chapman and Hall/CRC.

27. Yampolskiy, R.V., Unexplainability and Incomprehensibility of Artificial Intelligence. https://arxiv.org/abs/1907.03869 (дата обращения: 14.10.2024).

28. Yampolskiy R.V. Unpredictability of AI. arXiv preprint arXiv:1905.13053, 2019.

29. Soares N., et al. Corrigibility, in Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.

30. Baum S.D., et al. Long-term trajectories of human civilization. Foresight, 2019. 21(1): p. 53–83.

31. Yampolskiy R.V. The space of possible mind designs, in International Conference on Artificial General Intelligence. 2015. Springer.

32. Trazzi M., Yampolskiy R.V. Building safer AGI by introducing artificial stupidity. arXiv preprint arXiv:1808.03644, 2018.

33. Hadfield-Menell D., et al. The off-switch game, in Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.

34. Elamrani A., Yampolskiy R.V. Reviewing tests for machine consciousness. Journal of Consciousness Studies, 2019. 26(5–6): p. 35–64.

35. Yampolskiy R.V. Artificial consciousness: An illusionary solution to the hard problem. Reti, Saperi, Linguaggi, 2018. (2): p. 287–318: https://www.rivisteweb.it/doi/10.12832/92302 (дата обращения: 14.10.2024)[9].

36. Majot A.M., Yampolskiy R.V. AI safety engineering through introduction of self-reference into felidfic calculus via artificial pain and pleasure, in 2014 IEEE International Symposium on Ethics in Science, Technology and Engineering. 2014, IEEE.

37. Scott P.J., Yampolskiy R.V. Classification schemas for artificial intelligence failures. arXiv preprint arXiv:1907.07771, 2019.

38. Yampolskiy R.V. Leakproofing singularity-artificial intelligence confinement problem. Journal of Consciousness Studies JCS, 2012. 19(1–2): p. 194–214. https://www.ingentaconnect.com/contentone/imp/jcs/2012/00000019/f0020001/art00014 (дата обращения: 14.10.2024).

39. Armstrong S., Sandberg A., Bostrom N. Thinking inside the box: controlling and using an oracle AI. Minds and Machines, 2012. 22(4): p. 299–324.

40. Babcock J., Kramar J., Yampolskiy R. The AGI containment problem, in International Conference on Artificial General Intelligence. 2016. Springer.

41. Muehlhauser L., Bostrom N. Why we need friendly AI. Think, 2014. 13(36): p. 41–47.

42. Yampolskiy R.V. On controllability of AI. arXiv preprint arXiv:2008.04071, 2020.

43. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1). https://www.emerald.com/insight/content/doi/10.1108/FS-04-2018-0034/full/html (дата обращения: 14.10.2024)[10].

44. Buckner C. Understanding adversarial examples requires a theory of artefacts for deep learning. Nature Machine Intelligence, 2020. 2(12): p. 731–736.

45. Yampolskiy R.V. On the controllability of artificial intelligence: An analysis of limitations. Journal of Cyber Security and Mobility, 2022: p. 321–404. https://doi.org/10.13052/jcsm2245-1439.1132 (дата обращения: 14.10.2024)[11].

Глава 2

Непредсказуемость[12]

По мере обучения машины могут развить непредсказуемые стратегии такими темпами, которые недостижимы для их программистов.

Это проблема, с которой мы сталкиваемся каждый раз, когда думаем о создании интеллекта, превосходящего наш собственный.

Творческая непредсказуемость интеллекта непохожа на хаотичную непредсказуемость генератора случайных чисел.

2.1. Введение в проблему непредсказуемости

В последнее десятилетие с ростом возможностей ИИ немало ученых осознало, как важно не только создавать интеллектуальные системы, но и обеспечивать их безопасность [1–6]. К сожалению, безопасность ИИ – очень молодая сфера, и исследователи еще только определяют ее основные проблемы и ограничения. Принципы невозможности существуют во многих научных областях [7–13], а теперь и в сфере безопасности ИИ [14–16]. В этой главе мы сосредоточимся на малоизученной концепции непредсказуемости интеллектуальных систем [17], которая ограничивает наше понимание последствий разработки интеллектуальных систем и затрудняет решение задач проверки ПО, контроля интеллектуальных систем и безопасности ИИ в целом.

В теоретической информатике и разработке ПО в целом широко известен ряд утверждений о невозможности, и некоторые из них тесно связаны с предметом исследования главы. Например, согласно теореме Райса никаким эффективным вычислительным методом нельзя предсказать, проявит ли программа определенное нетривиальное поведение – например, выдаст ли она определенный результат [18]. Аналогично принцип вычислительной несводимости Вольфрама гласит, что выяснить сложное поведение программ можно, только запустив их [19]. И любая физическая система, которую можно представить как машину Тьюринга, поведет себя непредсказуемо [20, 21].

Принцип непредсказуемости ИИ – одно из многочисленных утверждений о невозможности в сфере безопасности ИИ. Используются также термины «непознаваемость» [22] и «когнитивная невместимость» [23], которые отражают нашу неспособность точно и последовательно предсказывать конкретные действия интеллектуальной машины – даже если нам известны конечные цели системы. Непредсказуемость связана с необъяснимостью и непостижимостью ИИ, но не совпадает с ними полностью. Она не означает, что невозможен статистический анализ с точностью выше случайной, но указывает на общее ограничение эффективности анализа, особенно ярко выраженное у передовых систем сильного ИИ (сверхинтеллекта) в новых областях.

На самом деле непредсказуемость таких сверхинтеллектуальных систем можно доказать. Приведем доказательство от противного. Предположим обратное – принцип непредсказуемости неверен и человек способен точно предсказать решения сверхинтеллекта. Это означает, что люди могут принимать такие же решения, что и сверхинтеллект, т. е. они настолько же умны, насколько умен сверхинтеллект. Это противоречит определению сверхинтеллекта как системы, превосходящей людей по интеллекту. Следовательно, наше первоначальное предположение ложно и принцип непредсказуемости верен.

Непредсказуемость можно формально измерить с помощью байесовой теории, по которой определяется разность между итоговыми и исходными представлениями агента, делающего предсказание [24–27]. «Непредсказуемость интеллекта неожиданна по-своему, необычным образом, нисколько не похожим на хаос или случайность. Существует удивительный баланс между непредсказуемостью действий и предсказуемостью результатов» [28]. Оценить величину неожиданности пропорционально разности в интеллекте между предсказателем и агентом, действия которого предсказываются, позволяет простейший эвристический алгоритм. Информацию об исследовании этой темы в доступной форме можно почерпнуть у Юдковского [29, 30].

Непредсказуемость можно наблюдать в действующих узкоспециализированных системах с производительностью выше человеческой. Разработчики известных интеллектуальных систем, победивших в играх – Deep Blue в шахматах [31, 32], IBM Watson в телевикторине «Jeopardy!»[13] [33], AlphaZero в го [34, 35], – не знали, какие решения их ИИ будут принимать на каждом шаге. Они могли предсказать только то, что ИИ попытается выиграть всеми доступными средствами – и это происходило. То же справедливо и для разработчиков сильного искусственного интеллекта. Они могут знать конечные цели своих систем, но не пошаговые планы достижения этих целей, и это очень важно для безопасности ИИ [36–39]. С конкретными примерами неожиданных действий интеллектуальных агентов можно ознакомиться в двух обзорах по этой теме: в области эволюционных алгоритмов [40] и интеллектуальных агентов на слабом ИИ [41].

3 4 5 6 Вперед