Игорь Шнуренко – Демон внутри. Анатомия искусственного интеллекта (страница 56)
Именно из-за высокой точности и способности к обобщению признаки из предпоследнего слоя нейросетей так востребованы в задачах распознавания изображений. Через трансферное машинное обучение — когда необученная нейросеть одна настраивается через другую, уже обученную — можно получить из базы очень точные карты различных признаков. Допустим, определить позу человека на движущейся картинке или дать текстовое описание того, что происходит на фото, то есть подписать фото (класс задач Image Captioning). Нейросеть может даже ответить на вопросы по фото, типа «сколько зеленых помидоров вы видите на этой картинке» — такой класс задач называется Visual Question Answering.
Таким образом, сеть вроде бы имеет представление о том, как устроен мир — более того, в случае с массивами фотографий мы в целом видим мир так же, поэтому представление ИИ о нем будет, во всяком случае в общих чертах, соответствовать нашему.
Однако машина выбирает наборы признаков в предпоследних слоях нейросетей не сама, а потому что мы ее об этом попросили. Она может дистанционно отвечать на вопросы, но не задавать их.
Ученые и разработчики прикладывают большие усилия с тем, чтобы понять, как мотивировать машину мыслить. Последним трендом в глубоком обучении стали исследования природы человеческого восприятия с тем, чтобы понять, как оно отличается от восприятия нейросетей.
Самым простым ответом на вопрос о мотивации было дать машине за правильное действие какую-то награду. Сделать так, чтобы она нуждалась в поощрении на структурном уровне, а дальше пусть борется за приз. В случае с глубоким обучением с подкреплением это означало поощрять действия нейросети, ведущие ее к награде, и чтобы она избегала действий, которые от этой награды ее отдаляют.
Поэтому именно на метод глубокого машинного обучения с подкреплением и на GANs (генеративно-состязательные сети) некоторые ученые сделали свою ставку, надеясь на то, что именно так удастся создать сильный ИИ.
При этом механизмы, в том числе обучения с подкреплением, взяли у биологического мозга.
В 1954 году канадские ученые Джеймс Олдс и Питер Милнер обнаружили центры наслаждения у крыс. Имплантировав электроды в определенную часть мозга животного, они приучили крысу нажимать рычаг, после чего через электроды проходил низковольтный разряд электричества и вызывал удовольствие. Когда крысы научились стимулировать центр наслаждения, они словно сходили с ума и нажимали рычаг до полной потери сил.
Нервные импульсы в этом участке передаются в основном посредством нейромедиатора дофамина, который вырабатывается в мозге. Дофамин является биохимическим предшественником адреналина и вырабатывается естественным образом во время положительного опыта не только у крыс, но и у человека. Прием вкусной пищи, секс и другие приятные телесные ощущения —все это приводит к выработке дофамина. Эксперименты показали, что даже воспоминания об ощущении могут увеличить уровень дофамина —значит, нейроны запоминают связь и подкрепляют этим гормоном свое воспоминание.
Одно время думали, что дофамин вырабатывается лишь непосредственно в процессе получения удовольствия, но все оказалось сложнее и интереснее.
В 1997 году в эксперименте Шульца у обезьяны создавали условный рефлекс по схеме Павлова: после включения лампочки в рот животному поступал сок. При этом у нее измеряли уровень активности нейронов, вызванный поступлением дофамина. Было обнаружено, что дофамин вырабатывался сначала в ответ на поступление сока, а после формирования условного рефлекса в ответ на подачу светового сигнала, до момента впрыскивания сока. Если обезьяна, предупрежденная лампочкой, ждала сок и его не получала, активность дофаминовых нейронов снижалась. Получалось, дофамин участвует в формировании и закреплении условных рефлексов с подкреплением. То есть, вырабатывая дофамин, мозг давал обезьяне знать, что её мечта о соке сбылась. Но просто сок без мечты такого удовольствия уже не приносил.
Дофамин используется мозгом человека как раз для оценки действий и мотивации, закрепляя через удовольствие действия, например, направленные на продолжение рода. При помощи дофамина формируется и чувство любви — это было показано в блестящей серии экспериментов на серых полёвках. Этот вид мышей вырабатывает чувство супружеской верности. Судя по художественной литературе, человек тоже порой формирует аналогичное чувство привязанности.
Активация дофаминных нейронов происходит и при очень важном процессе переключения внимания человека от одного этапа когнитивной деятельности к другой. Это важнейшее свойство человека, и если каким-то образом удастся его воспроизвести, это будет гигантским шагом вперед на пути разработки сильного ИИ.
Немецкие нейробиологи Кляйн и другие показали в 2007 году в ходе эксперимента на людях, что дофамин дает возможность эффективно учиться на своих ошибках, а его нехватка может привести к игнорированию негативного опыта. Проще говоря, если какой-нибудь куратор выставки современного искусства хочет, чтобы посетители пришли на его выставку во второй или третий раз, ему нужно перекрыть у них дофаминовый кран, то есть сделать так, чтобы они в принципе не получали удовольствия от искусства.
Хм, похоже, кураторы так и делают.
Вы уже догадались, что дофамин — довольно опасная субстанция в неумелых руках. Если ее вырабатывать не путем обучения с подкреплением, а при помощи искусственных стимуляторов, то мозг привыкнет к повышенному уровню дофамина и начнет меньше его вырабатывать. Человек будет нуждаться в повышении дозы, и мозг начнет разрушаться.
А что такое телефонная зависимость, как не результат обучения с подкреплением дофамином? Люди настолько привыкли получать дофамин в награду за сигнал о полученном сообщении, лайке, ответе на комментарий в соцсети, что утро начинают с просмотра обновлений. Организм требует дозу дофамина, и крупные корпорации научились монетизировать нехватку общения и растущую отчужденность людей, называя это «экономикой внимания». На самом деле правильнее было бы называть это «дофаминной экономикой», а нашу эпоху — «дофаминной цивилизацией».
Нейробиологи продолжают изучать механизм круговорота дофамина, где еще много неясного, а разработчики искусственных нейронных сетей уже взяли основные его принципы на вооружение.
Биологический мозг через дофаминовую систему закрепляет связи между нейронами, которые были активны непосредственно до момента получения дозы дофамина. Между нейронами возникает ассоциация, которая может быть закреплена в будущем новыми дозами. Так формируется ассоциативная память. Когда один из этих нейронов будет задействован, ассоциативная память активизируется в ожидании дофамина и посылает сигнал на другой нейрон, после чего, например, активизируются моторные нейроны, которые приводят к сокращению мышц. Так обучение с подкреплением вызывает действие.
Вначале обучать нейросеть с подкреплением пробовали простым методом: за достижение цели сеть получает награду, выходной сигнал, за который получена награда, маркируется, и методом обратного распространения ошибки сеть постепенно обучается давать именно этот сигнал на выходе. Если на выходе получается другой сигнал, значит, действия привели к неудаче, и эта цепь прохождения сигнала впредь подавляется через понижение весов в соответствующих ячейках промежуточных слоев. В общем, создали искусственную нейросеть по принципу дофаминовой системы.
Однако на практике оказалось, что такой подход не работает. Этому давали разные объяснения, например, что полезный сигнал настолько мал, что теряется на фоне шума. Поэтому стандартным методом обратного распространения ошибки сеть не обучается. Награда случается крайне редко, один раз на несколько сотен или даже тысяч шагов обучения, а даже нейросети с долгой краткосрочной памятью в состоянии запомнить даже в очень простых задачах лишь несколько сотен точек истории. Фактически нейросеть при таком обучении должна запоминать единичные случаи, чего она делать не умеет. А вот мозг делает это прекрасно! Роман Льва Толстого весь строится на таких «единичных случаях», которые переворачивают жизнь человека, полностью меняя его сознание.
Сколько раз Пьер Безухов должен ранить Долохова на дуэли, чтобы испытать потрясение и понять, что вся его жизнь бессмысленна и лжива? Один раз. Меж тем, боюсь, нейросеть заставила бы бедного Пьера, будь он искусственным интеллектом, пройти через это испытание тысячу раз — в лучшем случае — чтобы он почувствовал хотя бы намек на желание изменить жизнь.
Ученые пока не знают, что придумать, чтобы обойти эту проблему. Есть метод, при котором удачные ситуации из прошлого заносятся в специальный буфер и подаются на вход сети наравне с новыми ситуациями. Еще пытаются фиксировать пути внутри нейросети, бывшие активными во время удачного случая — чтобы новые случае не стирали их. Но решая одни проблемы, такие подходы рождают новые.
Есть проекты, например, тот же Psychlab гугловской лаборатории DeepMind, которые изучают разницу между когнитивными процессами двух систем, человеческой и машинной. В рамках проекта проводится много экспериментов, в которых принимают участие машина и человек.