реклама
Бургер менюБургер меню

Терренс Сейновски – Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет (страница 14)

18px

Рис. 5.8. Музей Гуггенхайма в Бильбао, спроектированный Фрэнком Гери. Тени и отражения от криволинейных поверхностей создают сильное впечатление формы и движения. Крошечные люди на дорожке показывают масштаб здания

Стив Цукер недавно смог объяснить, как мы видим складки на затененных изображениях, основываясь на тесной взаимосвязи между трехмерными очертаниями поверхности, как на контурных картах гор, и контурами постоянной яркости на изображениях (рис. 5.9)[112].

Рис. 5.9. Высотные контуры поверхности (слева сверху) по сравнению с изофотами (кривыми, соединяющими точки равной яркости) той же поверхности (слева внизу). В обоих случаях разделение происходит в одних и тех же критических точках, как показано на рисунках справа (Кансберг и Цукер)

Связь обеспечивается геометрической формой поверхности[113]. Это объясняет, почему наше восприятие формы настолько нечувствительно к различиям в освещении и свойствам поверхности объектов. Это также может объяснить, почему мы так хорошо читаем контурные карты, где контуры сделаны явными, и почему нам достаточно лишь несколько характерных внутренних линий, чтобы увидеть форму объектов в мультфильмах.

В 1988 году мы с Сидни Леки задались вопросом, сможем ли мы обучить нейронную сеть с одним слоем скрытых элементов для вычисления кривизны затененных поверхностей[114]. Нам это удалось, и, к своему удивлению, мы обнаружили, что скрытые элементы выглядят как простые клетки. Однако при ближайшем рассмотрении мы заметили, что не все клетки одинаковы. Рассматривая проекции простых клеток на выходной слой, который был обучен вычислять кривизну с помощью алгоритма (глава 8), мы обнаружили, что некоторые простые клетки использовались для выбора между положительной кривизной (выпуклым) и отрицательной (вогнутым) (рис. 5.10). Эти простые клетки были детекторами. Они, как правило, имели либо низкую, либо высокую активность, демонстрируя бимодальное распределение. В отличие от них, у других простых клеток отклик был разной силы и они функционировали как фильтры, которые сообщали элементам на выходе направление и величину кривизны.

Рис. 5.10. Кривизна от затенения. Наша зрительная система может извлечь форму объекта из плавно меняющейся яркости изображения в пределах ограничивающего контура. Вы видите выпуклые или вогнутые формы в зависимости от направления затенения и вашего предположения о направлении освещения. Переверните книгу вверх ногами, чтобы увидеть изображения по-другому. [Ramachandran V. S. (1988). «Perception of shape from shading». Журнал Nature, 331, 163–165.]

Вывод был неожиданным: нельзя определить функцию нейрона, зная только то, как он реагирует на входящие данные. Функция нейрона также зависит от нейронов, которые он активирует на выходе, что мы назвали проекционным полем нейрона. До недавнего времени это поле было гораздо труднее определить, чем входные данные, но новые генетические и анатомические методы позволяют с большей точностью отслеживать, как передаются импульсы по аксонам (длинным отросткам нервных клеток), а новая технология оптогенетика[115] дает возможность избирательно стимулировать конкретные нейроны для исследования их влияния на восприятие и поведение[116]. Тем не менее эта небольшая сеть в состоянии только определить кривизну выпуклости или впадины. И мы до сих пор не знаем, как целостные образы, которые в литературе по психологии называют гештальтом, организованы в коре. Мы со Стивом Цукером однажды застряли в международном аэропорту Стэплтон в Денвере в 1984 году, наши рейсы задержали из-за метели. Он, как и я, восторгался вычислительной нейробиологией, которая все еще находилась в зачаточном состоянии. Мы придумали семинар, который объединит теоретиков и практиков этой науки, и решили организовать его в Вудс-Хоул, где я прошел летний курс нейробиологии и куда вернулся через несколько лет, чтобы работать со Штефаном Куффлером над физиологическими экспериментами в Лаборатория биологии моря. Вудс-Хоул – красивая прибрежная деревня на полуострове Кейп-Код недалеко от Бостона. На протяжении долгих лет многие ведущие исследователи, изучающие зрение, посещали этот ежегодный семинар, ставший еще одним моим научным достижением. Семинары положили начало вычислительной теории зрительной коры, но ее подтверждение займет еще 30 лет. В главе 9 мы увидим, что архитектура самой успешной сети глубокого обучения удивительно похожа на зрительную кору.

Иерархическая организация визуальных карт коры головного мозга

Джон Каас и Джон Оллмэн, работавшие в Университете Висконсина, исследовали те области мозга, которые получали сигналы от первичной зрительной коры, и обнаружили, что у них разные свойства. Например, они выявили карту поля зрения в средне-височной зоне[117], нейроны которой реагировали на ориентированные зрительные стимулы, движущиеся в предпочтительном направлении. Оллман как-то упомянул, что им было трудно заставить заведующего кафедрой Клинтона Вулси признать их открытие. В предшествующих экспериментах Вулси использовал для записи более грубые методы и пропустил эти области зрительной коры. Не все открытия сразу же принимаются научным сообществом. Впоследствии в зрительной коре обезьяны было обнаружено два десятка зрительных зон.

Дэвид ван Эссен, работавший в то время в Калтехе, тщательно изучил входы и выходы каждой зрительной зоны и расположил их в виде иерархической диаграммы (рис. 5.11). Схема напоминала карту метро огромного города, с прямоугольниками, обозначающими станции, и соединяющими их линиями высокоскоростного транспорта, и ее иногда используют, чтобы показать сложность коры головного мозга.

Рис. 5.11. Иерархия зрительных зон в мозге обезьяны. Визуальная информация от ганглиозных клеток сетчатки (retinal ganglion cells; RGC) проецируется на латеральное коленчатое тело (lateral geniculate nucleus; LGN) таламуса, чьи релейные клетки передают сигнал на первичную зрительную кору (V1). Иерархия кортикальных областей заканчивается в гиппокампе (HC). Почти все 187 каналов в диаграмме двунаправлены, у них прямая связь с отделом ниже и обратная связь с отделом выше. Источник: Source: Daniel J. Felleman and David C. Van Essen, “Distributed Hierarchical Processing in Primate Visual Cortex,” Cerebral Cortex 1 (1991): 1–47

Рис. 5.12. Коннектом человека. Длинные проводящие пути в белом веществе коры головного мозга можно проследить бесконтактным способом с помощью магнитно-резонансной томографии, основанной на неравномерной диффузии молекул воды. Разные пути искусственно окрашены в разные цвета www.pinterest.com/pin/350366045987135160/

Визуальный вход из ганглиозных клеток сетчатки (RGC) проецируется в первичную зрительную кору (V1) внизу диаграммы. Оттуда сигналы переносятся вверх по иерархии, каждая область специализируется на отдельном аспекте зрения, например на восприятии формы. Ближе к вершине иерархии в нижневисочной зоне (AIT, CIT, PIT) в правой части диаграммы рецептивные поля нейронов охватывают все поле зрения и реагируют преимущественно на сложные визуальные стимулы, такие как лица и другие объекты. Ван Эссен перешел в Вашингтонский университет в Сент-Луисе, и сейчас он один из директоров масштабного научно-исследовательского проекта «Коннектом[118] человека», спонсированного Национальным институтом здравоохранения США[119]. Цель проекта – использовать методы визуализации мозга на основе МРТ[120] для разработки сопоставимой карты дальних связей в мозге человека (рис. 5.12).

Появление когнитивной нейробиологии

Самые высокие уровни функционирования мозга труднее всего поддавались изучению, однако ситуация быстро менялась. В 1988 году я состоял в комитете фондов Макдоннела и Пью, который брал интервью у известных ученых-когнитивистов и нейробиологов, чтобы получить их рекомендации по созданию нового направления – когнитивной нейробиологии[121]. Комитет объездил весь мир, чтобы встретиться с экспертами и узнать, какие научные темы наиболее перспективны и где разместить новые центры когнитивной нейробиологии. Мы встретились в клубе преподавателей Гарварда жарким августовским днем, чтобы провести интервью с Джерри Фодором – экспертом в языке мышления и одним из лучших исследователей в области модульного разума. Он начал с резкого заявления: «Когнитивная нейробиология – это не наука и никогда не будет ею». Сложилось впечатление, что он прочитал все труды по нейробиологии о зрении и памяти и они не соответствовали его стандартам. Фодор продолжил: «Фонд Макдоннела бросает деньги на ветер». Джон Бруэр, президент Фонда Макдоннела, отметил, что Фодор путает его фонд с уличной побирушкой.

Фодор невозмутимо объяснил, почему разум должен быть модульной системой обработки символов под управлением умной компьютерной программы. Патриция Черчленд, философ из Калифорнийского университета в Сан-Диего, спросила тогда, применима ли его теория к кошкам. «Да, – ответил Фодор. – Кошки управляются кошачьей программой». Морт Мишкин, нейробиолог из Национального института здоровья США, изучающий зрение и память, попросил Фодора рассказать об открытиях, сделанных в его собственной лаборатории. Тот пробормотал что-то об эксперименте, о потенциальных возможностях языка, но я не понял ход его мысли. К счастью, сработала пожарная сигнализация и мы все вышли на улицу. Во дворе я услышал часть разговора Мишкина с Фодором: «…эти картофелины достаточно мелкие». Когда учебная пожарная тревога закончилась, Фодор исчез.