реклама
Бургер менюБургер меню

Леонид Черняк – Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта (страница 29)

18

В марте 2019 Тьюринговская награда 2018 года, аналог Нобелевской премии в компьютинге, была присуждена Джеффри Хинтону, Янну Лекуну и Джошуа Бенджо. В отличие от подавляющего большинства других тьюринговских и тем более нобелевских лауреатов, остающихся после получения наград в своих лабораториях, эти трое и их ближайшие сотрудники вышли в мир бизнеса, продолжая свои исследования в сотрудничестве с крупнейшими компаниями Google, Facebook, другими крупными вендорами, многие создали свои собственные предприятия.

Нельзя исключать, что восхождение ко всемирной славе, по своей стремительности сравнимое с превращением Золушки, стало неожиданностью для них самих, ничто из того, чем они занимались 20 лет назад, не могло этого предвещать. В роли феи оказалась совсем небольшая по численности канадская благотворительная организация CIFAR (Canadian Institute for Advanced Research), выступающая в роли распорядителя средств, выделяемых правительством Канады и провинции Квебек с 1982 года. Свою миссию CIFAR видит в периодической концентрации средств и внимания на какой-то актуальной программе, привлекая для этой цели временные немногочисленные коллективы специалистов из разных стран. Время жизни каждой из программ составляет 10–15 лет, их было порядка полутора десятков, но самой известной из них, принесшей известность CIFAR, стала Neural Computation & Adaptive Perception program, открытая в 2004. К ней были привлечены нынешние тьюринговские лауреаты, а также специалисты по смежным специальностям: в том числе биологи, психологи, физики. Не будь этого импульса, на подиуме могли бы оказаться иные люди.

Спонсирование со стороны CIFAR позволило Хинтону, создававшему «временный трудовой коллектив», привлечь Лекуна и Бенджо с которыми он был связан общими научными интересами с конца 80-х. Сейчас трудно представить, что тогда исследования в области нейронных сетей представляли интерес только для чрезвычайно узкого круга, как их тогда называли, заговорщиков (cabal-like group), а их проекты вероотступническими (renegade). В те скудные времена (lean times) никто не верил будущее нейронных сетей.

Лекун вспоминает: «Период между серединой 90-х и серединой 00-х был мрачным, невозможно было опубликовать ни одной статьи по нейронным сетям, все потеряли интерес к ним. Сети имели плохую репутацию, и на них практически распространялось своего рода табу». Ситуация стала меняться по результатам очередного конкурса по распознаванию изображений ILSVRC (ImageNet ImageNet Large Scale Visual Recognition Challenge), прошедшего в 2012. Основателем этого соревнования стала профессор Стэнфордского университета Фей-Фей Ли, которой в голову пришла оригинальная идея переноса центра тяжести исследований в области AI с моделей и алгоритмов на распознавание изображений сетевыми средствами. Для того чтобы их обучать, потребовалась большая база изображений, названная ImageNet, в качестве прототипа для нее Ли использовала разработанную в Принстонском университете лексическую базу данных английского языка WordNet, представляющую собой тезаурус и набор семантических сетей для английского языка. Вторым идейным источником для ILSVRC стал конкурс PASCAL VOC challenge, учрежденный в 2005, из названия которого следует, что он был нацелен на деление изображений на классы VOC (visual object classes).

С каждым очередным конкурсом ILSVRC точность распознавания возрастала и переломный момент произошел в 2012 году, когда конволюционная нейронная сеть CNN, названная AlexNet, показала результат, равный 16 %. В последующие годы он регулярно повышался, и вскоре сеть могла распознавать изображения лучше человека. Но при этом надо учитывать условность этого сравнения, сеть способна распознавать только определенные, заданные ей типы объектов, в то время восприятие человека этим не ограничено и он способен выносить суждения о распознанных объектах. В создании AlexNet ведущую роль сыграли двое – Алекс Крыжевский, его имя вошло в название сети, и его коллега Илья Сутскевер, оба на тот момент они были аспирантами Джеффри Хинтона в Торонтском университете. Любопытно то, что работа была сделана вопреки сомнениям Хинтона в возможности ее практической реализации. Сеть AlexNet написана на CUDA и работала на кластере, состоявшем из GPU, а ее теоретической основой была работа Яна Лекуна, написанная еще в 1989 году.

Инакомыслящие

Нередко общественное сознание переоценивает роль лидеров и, как следствие, может создаться ложное впечатление, будто кроме возглавляемого ими мэйнстрима ничего не существует. В области ANN, где сейчас работают тысячи исследователей и еще большее число разработчиков, как и в любом ином научно-технологическом направлении, есть многочленные близкие по отношению к мэйнстриму, но есть и отдаленные, а порой и вообще альтернативные направления. О соотношении между ними можно судить разнообразным рейтингам экспертов, входящих в элиту машинного обучения и нейронных сетей. Это самые разнообразные списки типа Top 5, 10 или 25 и т. п.

В большинстве из них на первой позиции лидер мэйнстрима Джеффри Хинтон, он абсолютный лидер, но на втором или на третьем стоит профессор Майкл Джордан, иногда он опережает Лекуна и Бенджо. Джордан преподает в университета Беркли, он обладает колоссальным научным авторитетом. В списках наиболее влиятельных ученых в Computer Science, составляемом журналом Science или порталом Guide2Research, Майкл Джордан существенно опережает Хинтона и других членов канадского ганга. С начала 80-х он разрабатывал когнитивные модели, основанные на рекуррентных нейронных сетях. Будучи статистиком, Джордан способствовал внедрению в машинное обучение байесовских сетей, представляющих собой множество переменных и их вероятностных зависимостей по Байесу.

В качестве постоянного оппонента Хинтону выступает немецко-швейцарский ученый Юрген Шмидхубер, профессор в Университете Лугано. В 1997 году Шмидхубер вместе со своим научным руководителем Сепплом Хохрайтером опубликовали статью Long short-term memory с описанием варианта рекуррентной нейронной сети (RNN), который они на несколько лет раннее назвали «Долгая краткосрочная память» (LSTM). Такое, на первый взгляд, нелогичное название не игра слов, оно имеет глубокие корни, идущие из психологии, где память делят на долговременную (long-term) и кратковременную рабочую (short-term). При объединении двух типов памяти в одной LSTM программа извлекает из short-term структуры, используемые для долговременного запоминания. Этот подход делает LSTM удобным для работы с последовательными данными, например текстами на естественных языках.

Более глубоким идейным оппонентом мэйнстриму является Хаим Самполинский, профессор Еврейского университета в Иерусалиме и профессор Гарвардского университета. Он автор множества работ, но наиболее доступно его позиция изложена вы статье «Глубокое обучение и альтернативные обучающие стратегии при ретроспективном анализе реальных клинических данных» (Deep learning and alternative learning strategies for retrospective real-world clinical data), написанной в соавторстве с коллегами. В ней признается, что в последние годы сочетание достижений в области машинного обучения в сочетании с доступной и недорогой электроникой позволили автоматизировать решение целого ряда сложных когнитивных задач.

Трансферное обучение

Всё нынешнее глубокое обучение относится к категории обучения с учителем (supervised DL), ставшего новой классикой. Оно обладает несколькими врожденными недостатками. По определению для него требуются чрезвычайно большие объемы данных на этапе обучения и соответственно большие вычислительные мощности. В ряде случаев требуется такая вычислительная мощность, что решение сопряженно с существенными энергетическими затратами, но полученная при этом модель способна решать только одну задачу, что снижает эффективность. То есть модель, обученная для решения одной задачи настолько специальна, что не может быть полезной для решения другой задачи, для нового решения потребуются новые данные для обучения и новые затраты на обучение. Избавлением от этого врожденного недостатка станет модифицированный тип DL, который получил название transfer learning (TL), его можно перевести как «обучение с переносом», но чаще используют кальку английского термина «трансферное обучение». TL отличается тем, что «знание», полученное при тренировке модели, сохраняется для последующего повторного использования, чем напоминает обучение человека, с той разницей, что машинное знание не имеет ничего общего с человеческим, оно не может служить источником для самостоятельной деятельности. Знание в данном случае сводится к возможности полного или частичного использования ранее обученной модели для решения новой задачи. TL повышает эффективность DL при условии родственности решаемых задач. Если модель обучена на распознавание кошек, то она окажется бесполезной для распознавания собак.

Общие идеи относительно возможностей TL и сам термин предложила известная специалист в этой области Лорин Пратт еще в 1993 году, но путевку в жизнь этому направлению в DL дал Эндрю Ын в своем ставшем широко известным выступлении на конференции Neural Information Processing Systems (NIPS) 2016. По его мнению, TL должно стать следующим стимулом для коммерческого успеха после обучения с учителем.