реклама
Бургер менюБургер меню

Игорь Шнуренко – Демон внутри. Анатомия искусственного интеллекта (страница 36)

18

Точки света и тени сначала сложатся в балерин, невидимые капсулы охватят их так, что мы безошибочно распознаем отдельных балерин вне зависимости от их танцевальных па. Далее паттерны будут словно заворачиваться в капсулы, и продолжат распознаваться как бы мы их ни вертели. Будет освоено на более высоком уровне и сочетание этих паттернов в капсулах. Например, вот жрецы в индусском танце, они закапсулированы в своих нарядах, а вот девушка с кувшином. Нейросети распознают паттерны в не просто в их бессвязных наборах, а в их ориентации, в сочетаниях, в танце.

На более высоком уровне абстракции мы признаем проникновенный ритуал спуска теней перед безутешным Солором, курящим гашиш в своей собственной четырехмерной матрице. Постепенно обучаясь, сеть будет покорять уровень за уровнем. И если мы обучим нейросеть всему сложнейшему рисунку этого балета, то, глядишь, когда-нибудь она превзойдет уровень провинциального режиссера и заключит в свою нежную многомерную матрицу общий образ сцены, столь напоминающей движения рук Никии в ее последнем смертельном танце.

Нет, впрочем, даже самые продвинутые на сегодняшний день капсульные нейросети вряд ли способны на такой тур-де-форс — поэтому искусственный интеллект представит нам свою вариацию Гамзати или прощальный танец Никии еще очень нескоро. Но в менее ответственных постановках — таких, как тренировка роботов открывать двери и не падать при этом со ступенек — капсульные сети уже что-то могут.

Почему к идее капсульных сетей не пришли на сорок лет раньше? У Хинтона, по его рассказам, она уже вертелась в голове. Возможно, и наш соотечественник Александр Галушкин вынашивал в своей голове что-то подобное. Но ни у того, ни у другого тогда просто не было ни вычислительных возможностей, ни достаточно сложного математического аппарата, чтобы это осуществить.

ЛУЧШЕ, ЧЕМ ЛЮДИ

В октябре 2016 года команда разработчиков Microsoft, работающих с искусственным интеллектом (известная как MAIR, Microsoft Artificial Intelligence and Research), сообщила о создании системы распознавания речи, которая ошибается меньше, чем люди. По данным исследователей, пословная вероятность ошибки снизилась до 5,9%. В декабре следующего, 2017 года этот показатель удалось снизить уже до 5 процентов. Это означает не только то, что гаджет сможет расшифровать запись выступления человека лучше вас. Это значит, что машина понимает логику построения человеческой речи лучше вас. Она сумеет синтезировать речь так, что вы точно не почувствуете, что говорит не человек, а искусственный разум. Надо понимать, что это нас ждет в самом ближайшем будущем.

Системы полнотекстового распознавания речи уже сейчас вовсю применяются банками. Например, переговоры операторов с должниками преобразуются в текст, который затем сохраняется в специализированном хранилище.

Перед тем как перевести сервис Google Translate на глубинное обучение, нейросеть опробовали в сложнейшей языковой паре английский —китайский. Количество ошибок перевода снизилось сразу на 60%. Нейросеть сразу достигла гораздо лучшего качества перевода, чем обычные статистические методы.

Распознавать образы машина, по некоторым данным, научилась лучше нас еще в 2015 году. Почему мы можем это предположить? Есть такой проект ImageNet — большая база данных, которая состоит из более 14 миллионов визуальных образов, аннотированных вручную. Она содержит также более 20 тысяч категорий наподобие «клубника» или «воздушные шары», каждая состоит из нескольких сотен картинок.

С 2010 года ImageNet проводит ежегодное состязание, в котором принимают участие десятки программ распознавания образов со всего мира. Участникам представляется выборка из примерно тысячи категорий с непересекающимися образами в каждом. Задача для программ: как можно точнее распознать и классифицировать все образы. Поскольку образцы, заполненные людьми, уже имеются, есть вполне убедительный критерий для сравнения.

В первые пару лет победители достигали уровня примерно в 25%, но уже в 2012 году, когда начался бум сверточных нейросетей, соревнования выиграла программа AlexaNet, сверточная сеть, которая достигла уровня в 16 процентов ошибки. Исследователи Microsoft утверждают, что в 2015 году достигли при работе с этой базой человеческого уровня распознавания образов, что соответствует примерно 5-процентной ошибке, и даже превзошли его.

Не все ученые согласились с этим выводом. Так, одна из организаторов состязания Ольга Русаковская сочла, что пока рано говорить о превосходстве машины над человеком: ведь люди распознают не тысячу категорий изображений, чему программисты учат свои нейросети, а гораздо больше. Кроме того, в отличие от программ люди лучше и быстрей понимают контекст, в котором находится изображение.

В соревновании 2017 года 29 команд из 38 участвующих показали результат ошибки меньший, чем 5 процентов. В ноябре того же года команда проекта Google по разработке нейросетей с новыми топологиями создала систему NASNet, оптимизированную под ImageNet, которая, по утверждениям представителей Google, превзошла все результаты, достигнутые кем-либо ранее.

Тогда же организаторы ImageNet заявили, что в новом состязании они предложат участникам классифицировать уже не двухмерные, а трехмерные образы. Это наверняка будет способствовать развитию систем с ИИ в таких областях, как робототехника и дополненная реальность.

Нейросети пока хуже людей отвечают на вопросы, заданные по картинкам, на понимание того, что там изображено, но быстро нагоняют людей и в этом. Люди правильно отвечают на вопросы в 86 процентах случаев. В 2015 году показатель машин составлял 57 процентов, а в 2017 году —уже 72 процента, так что через два-три года и эта вершина будет покорена искусственным интеллектом.

Разработчики создают сегодня все более мощные микрочипы специально для нейросетей. Например, пять лет назад компания IBM представила чип нового поколения True North, который реализует нейронную сетку, эквивалентную миллиону нейронов и 256 миллионам синапсов. Более того, чип имеет сходную с неокортексом архитектуру.

Чем такой специализированный чип лучше обычных? Дело в том, что в обычном чипе для компьютеров память разнесена с блоками обработки. Такие машины называются фон-неймановскими, их архитектура базируется на разработках принстонского математика и физика венгерского происхождения Джона фон Неймана, разработавшего ее еще в 1945 году.

Но в реальном времени, в оперативной обстановке, в которой работают, например, машины, распознающие лица, практически невозможно наладить массивный обмен информацией между ядром процессора и базами данных. А ведь настоящие нейроны, те, которые в мозгу, являются одновременно и ячейками памяти, и «процессорами», обрабатывающими информацию. В этом их принципальное отличие от фон-неймановских машин! Чипы, которые повторяют устройство коры головного мозга, позволяют гораздо быстрее и надежнее выполнять такие операции. Получается, что чип наподобие True North имеет миллион процессоров, каждый из которых обрабатывает информацию, поступающую с 256 входов. Производительность такого чипа еще недавно было трудно себе представить!

Именно поэтому искусственные нейросети преуспели сегодня в распознавании изображений в таких, например, задачах, как классификация объектов в видеопотоке — то есть выделять людей, автобусы, легковые автомобили, велосипеды и так далее. Собственно, сокращение размеров искусственных нейросетей и уменьшение их погрешностей до уровня, когда они стали ошибаться реже, чем человек, напрямую связано с использованием таких чипов, как True North. Весной 2016 года на базе шестнадцати 28-нанометровых процессоров True North был создан первый, как заявила компания IBM, когнитивный компьютер. Он был сделан по заказу Национальной администрации по ядер-ной безопасности США. Такой компьютер, помимо высокой производительности, обладает повышенной надежностью, ибо ему не нужно подключаться к какой-то внешней базе данных.

В 2018 году подобный микрочип презентовала и компания Intel, которая с начала 2010-х годов с ревностью следила за разработками компании IBM. Он называется Loichi — произносится «Лоуихи», по имени подводного вулкана на Гавайях, который вот-вот должен выйти на поверхность. Это совсем недавняя разработка, и «Интел» самим названием намекает на блестящее будущее новой технологии и его взрывную силу, которая призвана «порвать» целые отрасли человеческой деятельности. В нем поменьше, чем у True North, условных нейронов — 131 тысяча, и «всего» 130 миллионов синапсов. Он, конечно, не такой мощный, как продукт IBM, но эта разработка уже пятая в линейке нейроморфных чипов компании Intel, и он вдвое тоньше, чем True North, потому что создан по 14-нанометровой технологии.

«Лоуихи» сочетает в одном чипе процессы обучения и принятия решений без подключения к облаку. Компания утверждает, что чип, площадь которого составляет всего 60 квадратных миллиметров, обучается в тысячу раз быстрее нейросетей на базе обычных компьютерных систем. Также при обучении чип использует значительно меньше ресурсов, чем обычные сверточные сети на базе других процессоров, что экономит время, уменьшает потребление энергии и повышает скорость принятия решений.