реклама
Бургер менюБургер меню

Терренс Сейновски – Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет (страница 20)

18px

Неконтролируемое обучение и развитие коры головного мозга

Машину Больцмана можно использовать либо в контролируемом варианте, где входы и выходы зафиксированы, либо в неконтролируемом варианте, где зафиксированы только входы. Джеффри Хинтон применял неконтролируемую версию для наращивания глубины машины Больцмана по одному слою за раз[171]. Он начал с одного слоя скрытых элементов, подключенных к входным элементам, и обучал их на непомеченных данных, которые гораздо легче получить, нежели помеченные. В Интернете есть миллиарды непомеченных изображений и аудиозаписей. Неконтролируемое обучение пытается извлечь из них статистические закономерности, общие для всех данных. Первый слой скрытых элементов может извлекать из данных только простые пространственные объекты, что доступно и перцептрону. Следующий шаг – фиксирование веса первого слоя и добавление второго слоя единиц сверху. Далее неконтролируемое обучение машины Больцмана приводит к более сложному набору функций, и этот процесс можно повторить, чтобы создать сеть со множеством слоев.

Классификация становится намного проще в верхних слоях, требуя гораздо меньше обучающих примеров для достижения сходимости на более высоком уровне выполнения. Это происходит потому, что элементы в верхних слоях включают больше нелинейных комбинаций низкоуровневых признаков, что позволяет им как совокупности отделять общее от частного. Теоретически вопрос математического описания этой путаницы пока остается открытым, но глубокие нейросети уже используют новые геометрические инструменты[172].

Интересно, что кора головного мозга также развивается слой за слоем. На ранних стадиях развития зрительной системы нейроны в первичной зрительной коре, первыми получающие входящие данные от глаз, обладают высокой пластичностью и могут быть легко «перепрограммированы» потоком входной зрительной информации до окончания критического периода. Иерархия зрительных областей в задней части мозга созревает первой, а корковые области ближе к передней части мозга – гораздо позже. Префронтальная кора последней достигает полной зрелости, созревание может закончиться уже после совершеннолетия. Таким образом, развитие идет плавными волнами с перекрывающимися критическими периодами, когда связи в кортикальной области наиболее подвержены влиянию нервной деятельности. Джеффри Элман и Элизабет Бейтс, когнитивисты из Калифорнийского университета в Сан-Диего, совместно со своими коллегами разработали нейронную сеть, показывающую, как последовательное развитие коры мозга может объяснить вехи в развитии ребенка, появление у него новых способностей, с помощью которых он познает мир[173]. Это открыло новое направление исследований того, как наше долгое детство сделало людей чемпионами по обучаемости, и позволило под другим углом взглянуть на некоторые модели поведения, которые считались врожденными.

В книге «Лжецы, любовники и герои» мы со Стивеном Кварцем, бывшим постдокторантом моей лаборатории, который сейчас работает в Калтехе, писали, что во время длительного периода развития мозга в детском и подростковом возрасте опыт может сильно влиять на экспрессию генов в нейронах и тем самым изменять нейронные цепи, отвечающие за поведение[174]. Взаимодействие генетических различий и влияния окружающей среды – активная область исследований, позволяющая по-новому взглянуть на сложности развития мозга. Она выходит за рамки дебатов о роли природы и воспитания и пересматривает их с точки зрения культурной биологии: человеческая культура одновременно и формирует нашу биологию, и является ее продуктом[175]. Новой главой в этой истории стало недавнее открытие, что в период раннего развития, когда быстро растет число синапсов между нейронами, ДНК внутри нейронов изменяется формой метилирования[176], которая регулирует экспрессию генов и уникальна для мозга[177]. Это называется эпигенетической модификацией и может быть связью между генами и опытом, что и предполагали мы со Стивом Кварцем.

К 1990-м годам когнитивная нейробиология расширялась, и революция нейронных сетей шла полным ходом. Компьютеры становились быстрее, но скорости пока не хватало. Машина Больцмана была просто конфеткой с технической точки зрения, но ужасно медленной для моделирования. Что действительно помогло нам добиться прогресса, так это более быстрый алгоритм обучения, который появился у нас именно тогда, когда мы больше всего в нем нуждались.

Глава 8. Метод обратного распространения ошибки

Калифорнийский университет в Сан-Диего был основан в 1960 году и со временем превратился в крупный центр биомедицинских исследований. В 1986 году в нем открыли первый в мире факультет когнитивной науки[178]. Дэвид Румельхарт (рис. 8.1) был видным математиком и когнитивным психологом, работавшим с символьным, основанным на правилах, подходом к ИИ, который преобладал в 1970-х годах.

Рис. 8.1. Дэвид Румельхарт в Калифорнийском университете в Сан-Диего в 1986 году, примерно в то время, когда были изданы книги о параллельной распределенной обработке. Румельхарт оказал влияние на техническую разработку алгоритмов обучения для моделей многослойных сетей и использовал их, чтобы понять психологию языка и мышления

Когда я впервые встретил его в 1979 году на семинаре, организованном Джеффри Хинтоном в Калифорнийском университете в Сан-Диего, Румельхарт был одним из первых, кто использовал новый подход к психологии человека, который он вместе с Джеем Макклелландом назвали параллельной распределенной обработкой (Parallel Distributed Processing; PDP). Румельхарт мыслил глубоко и часто делал проницательные замечания.

Алгоритм обучения машины Больцмана доказуемо мог изучить проблемы, требующие скрытых элементов, показывая, что, вопреки мнению Минского и Пейперта, а также большей части научного мира, возможно обучить многослойную сеть и преодолеть ограничения перцептрона. При этом не ставилось никаких ограничений ни на количество слоев в сети, ни на связи внутри слоя. Казалось, прогрессу нет предела, но была одна проблема: при моделировании достижение равновесия и сбор статистики становились все медленнее, а сетям покрупнее требовалось гораздо больше времени, чтобы сбалансироваться.

Блок 5. Обратное распространение ошибки

В сети с обратным распространением ошибки входные данные передаются с прямой связью: слева на схеме входные элементы распространяются вперед через соединительные узлы (указаны стрелками) к скрытому слою элементов, которые, в свою очередь, проецируются на выходной слой. Выходные данные сравниваются со значением, заданным учителем, и разница используется для обновления веса в выходном блоке, чтобы снизить вероятность ошибки. Затем веса между входными блоками и скрытым слоем обновляются на основе обратного распространения ошибки, исходя из того, насколько каждый вес влияет на ошибку. Обучаясь на множестве примеров, скрытые элементы совершенствуют избирательные свойства, которые используются, чтобы различать разнообразные входные данные и разделять их на категории в выходном слое. Это называется обучением представлениям.

В принципе, можно построить массово-параллельный компьютер, который намного быстрее, чем традиционная архитектура фон Неймана, выполняющая одно обновление за раз. Это путь, по которому пошла природа. В 1980-х мы использовали цифровые компьютеры, которые могли выполнять только около миллиона операций в секунду. Сегодня компьютеры выполняют миллиарды операций в секунду, а благодаря соединению тысяч ядер высокопроизводительные компьютеры работают в миллион раз быстрее. Такой рост беспрецедентен в технологиях. Стал ли ваш автомобиль в миллион раз мощнее, чем машины из 1980-х?

США поставили на Манхэттенский проект два миллиарда долларов без каких-либо гарантий, что атомная бомба получится, и строжайшей тайной было то, что она получилась. Как только стало известно, что многослойные сети можно обучать с помощью машины Больцмана, произошел взрыв новых обучающих алгоритмов. В то же время, когда мы с Джеффри Хинтоном работали над машиной Больцмана, Румельхарт разработал другой алгоритм обучения для многослойных сетей, который оказался более продуктивным[179].

Оптимизация

Оптимизация – ключевое математическое понятие в машинном обучении. Для многих задач можно найти функцию стоимости, решение которой – состояние системы с наименьшими затратами. Для сети Хопфилда функция стоимости – это энергия, как описано в главе 6, и цель – найти состояние сети с наименьшим расходом энергии. Для сети прямого распространения функция стоимости обучения – сумма квадрата ошибок выходного слоя обучающего набора. Градиентный спуск – общая процедура, которая минимизирует функцию стоимости, внося дополнительные изменения в веса в сетях в направлении наибольшего снижения стоимости[180]. Представьте функцию стоимости в виде горного хребта, а градиентный спуск – в виде лыжни, по которой вы спускаетесь вниз по склону.

Румельхарт обнаружил, как вычислить градиент для каждого веса в сети с помощью процесса, называемого обратным распространением ошибок (блок 5). Начиная с выходного слоя, где известна ошибка, легко вычислить градиент от входных весов к выходным элементам. Следующим шагом было использование градиентов выходного слоя для вычисления градиентов на предыдущем слое весов, и так далее слой за слоем вплоть до входного. Это очень эффективный способ вычисления градиентов ошибки.