Терренс Сейновски – Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет (страница 23)
Степень размерности сетей в мозге настолько высока, что мы даже не можем точно оценить ее. Общее количество синапсов в коре головного мозга – около ста триллионов, астрономически высокая грань. Человеческая жизнь длится не более нескольких миллиардов секунд. Таким образом, вы можете позволить себе посвящать сто тысяч синапсов каждой секунде своей жизни. На деле у нейронов, как правило, кластеризованные локальные соединения. Например, в кортикальном столбце сто тысяч нейронов соединены миллиардом синапсов – число довольное большое, но все же не заоблачное. Длинные соединения куда менее распространены, потому что требуют много места и энергии.
Число нейронов, которое нужно, чтобы представить в мозге объект или понятие, важно, и его необходимо определить. Предположительно требуется около миллиарда синапсов и около ста тысяч нейронов, распределенных по десяти кортикальным областям[207], что позволяет хранить около ста тысяч отдельных классов объектов и понятий в ста триллионах синапсов, что сходно с количеством слов в английском языке[208]. На практике популяции нейронов, представляющих схожие объекты, перекрываются, благодаря чему растет способность коры головного мозга представлять связанные объекты и отношения между объектами. У человека эта способность развита намного лучше, чем у других млекопитающих, из-за сильно увеличенной ассоциативной коры, которая находится на вершине сенсорной и моторной иерархий.
Изучение вероятностных распределений в многомерных пространствах было относительно неисследованной областью статистики. Несколько ученых-статистиков из сообщества NIPS, таких как Лео Брейман из Стэнфордского университета, исследовали статистические проблемы, возникающие при навигации по пространствам с высокой размерностью и многомерным наборам данных. Некоторых из сообщества NIPS, например, Майкла Джордана из Калифорнийского университета в Беркли, приняли на работу в отдел статистики. В эпоху больших данных машинное обучение шагало там, куда статистики не решались ступать. Однако недостаточно просто обучить крупные сети делать удивительные вещи – нужно их проанализировать и понять, почему они эффективны. Физики взяли на себя инициативу на этом фронте, используя методы из статистической физики для анализа свойств обучения по мере того, как число нейронов и синапсов становится запредельно большим.
Ограничения нейронных сетей
В настоящее время нейронные сети могут дать правильный ответ на вопрос, но не объяснить, как к нему пришли. Например, пациент находится в приемном отделении «скорой помощи» с острой болью в груди. Инфаркт миокарда, требующий немедленной помощи, или тяжелое расстройство желудка? Обученная сеть может поставить диагноз точнее, чем врач. Но без объяснения, как она это сделала, начинаешь сомневаться, а можно ли доверять ей. Врачи тоже учатся следовать алгоритмам, проводить серии тестов перед принятием решения, и обычно это работает. Проблема в том, что есть редкие случаи, к которым нельзя применить стандартный алгоритм, однако сеть, обученная на гораздо большем количестве примеров, чем среднестатистический врач видел за свою практику, может распознать их и верно поставить диагноз. Вы бы доверяли совету врача, который все подробно растолковал, или нейронной сети, которая по статистике лучше, но не дала объяснений? На самом деле у врачей, которые могут очень точно поставить диагноз даже в редком случае, как правило, большой опыт, и они применяют именно распознавание образов, а не алгоритмы[209]. Этим способом, вероятно, пользуются эксперты самого высокого уровня во всех областях.
Точно так же, как можно обучить сети ставить диагнозы на уровне эксперта, должна быть возможность обучить сети давать объяснения, как если бы они были частью обучающего набора. Вероятно, это даже улучшит диагноз. Сложность в том, что многие объяснения врачей неполные, упрощенные или неправильные. Медицинская практика сильно меняется от поколения к поколению, потому что строение тела гораздо сложнее, чем мы себе представляем. Если бы нам удалось проанализировать внутреннее состояние сетевых моделей, чтобы извлечь причинные объяснения, это привело бы к новым выводам и гипотезам, которые можно было бы протестировать для совершенствования медицины.
Возражение, что нейронная сеть – «черный ящик», выводы которого нельзя понять, применимо и к мозгу, ведь люди, владея одинаковой информацией, могут делать совершенно разные выводы. И мы пока не знаем наверняка, как мозг принимает решения, используя опыт. Как показано в главе 3, выводы не всегда основаны на логике, к тому же возможны когнитивные искажения[210]. Более того, часто мы приводим лишь обоснованные или правдоподобные объяснения. Нельзя исключать, что какая-то огромная генеративная сеть заговорит, и мы сможем попросить у нее объяснений. Стоит ли нам ждать, что они будут лучше и рациональнее, чем те, что дают люди? Напомним, что сознание не имеет доступа к внутренней работе мозга. Сети глубокого обучения обычно предоставляют не один, а несколько основных прогнозов в порядке убывания, что дает некоторую информацию о достоверности вывода. Показывать вероятность разных ответов более наглядно, чем говорить «да» или «нет».
Контролируемые нейронные сети могут решать только те проблемы, которые попадают в диапазон данных, использованных для обучения сети. Обученная на схожих примерах, нейронная сеть должна хорошо справиться с новыми случаями, распространив на них имеющий опыт. Однако если новые входные данные выходят за пределы обучающего набора, экстраполяция опасна. Это не удивительно, ведь то же ограничение относится и к людям: не следует ожидать, что эксперт в одной из областей физики даст хороший совет по политическому вопросу или даже по вопросу из другой области физики. Однако до тех пор, пока обучающий набор достаточно велик, чтобы охватить весь спектр потенциальных входных данных, обобщение будет хорошо на них распространяться. На практике люди склонны использовать сходство для переноса опыта с области, в которой они разбираются, на новую, но если области коренным образом различаются, это может привести к ложным аналогиям.
Еще одно возражение: нейронная сеть может оптимизировать выгоду в ущерб справедливости. Например, представитель недопредставленного меньшинства обращается за ипотекой и получает отказ от нейронной сети, обученной на миллионах заявок. Входные данные включают текущий адрес и другую связанную с этим меньшинством информацию. Таким образом, хотя и существует закон о запрете явной дискриминации меньшинств, сеть может использовать скрытую информацию против них. Проблема не в нейросети, а в функции стоимости, которую мы дали ей оптимизировать. Если единственная цель сети – получение прибыли, то она будет использовать любую информацию, чтобы ее максимизировать. Решить эту проблему можно, включив равноправие как еще одно условие в функцию затрат. Тогда оптимальным итогом будет баланс между прибылью и справедливостью. Кроме того, компромисс должен быть четко сформулирован в функции затрат, которая требует, чтобы кто-то определил вес каждой цели. В основе этих компромиссов должен лежать этический подход гуманитарных и социальных наук. Но имейте в виду, что у выбора функции затрат, который кажется справедливым, могут быть непредвиденные последствия[211].
Есть ли у природы функция стоимости? Оптимизация затрат в эволюции называется приспособляемость, но это понятие имеет смысл только для конкретного набора ограничений либо со стороны окружающей среды, либо со стороны ищущей выгодной решение системы. В мозге от рождения «запрограммирована» потребность в пище, тепле, безопасности, кислороде и продолжении рода, влияющая на поведение. Но есть ли функция стоимости, которая регулирует внимание? Мы лучше запоминаем то, что привлекло наше внимание, но что управляет им? Если ответим «мы», то попадем в замкнутый круг.
Продвижение
Во время творческого отпуска в 1987 году я выступал в Калтехе в качестве приглашенного профессора нейробиологии и посетил Фрэнсиса Крика в Институте Солка. Крик создавал исследовательскую группу, специализирующуюся на зрении, которым я тоже интересовался. На обеде с преподавателями я включил запись NETtalk, и она вызвала оживленную дискуссию. Вскоре, в 1989 году, я переехал в Ла-Хойя и основал при Институте Солка Лабораторию вычислительной нейробиологии, а также Институт нейронных вычислений при Калифорнийском университете в Сан-Диего. Это был потрясающий переход от младшего научного работника в Университете Хопкинса к ведущему преподавателю в Ла-Хойя, и в одночасье передо мной открылось множество возможностей, включая должность в Медицинском институте Говарда Хьюза, который оказывал щедрую поддержку моим исследованием более 25 лет.
Дэвид Румельхарт, преподававший метод обратного распространения ошибки, в 1987 году сменил Калифорнийский университет в Сан-Диего на Стэнфорд. Когда я перебрался в Сан-Диего, мне было жаль, что Дэвид уехал и мы виделись очень редко. С годами я заметил, что его поведение меняется. В конце концов ему поставили диагноз лобно-височная деменция – прогрессирующая потеря нейронов в лобной коре, влияющая на личность, поведение и речь. Румельхарт умер в 2011 году в возрасте 69 лет, уже не узнавая своих родственников и друзей.