Леонид Черняк – Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта (страница 41)

Шрифт

Особо следует сказать о машинном зрении, как о прикладной области компьютерного зрения, это инженерная область, связанная с созданием систем контроля производственным оборудованием и роботами-манипуляторами.

Ошибка Папперта

И здесь тоже начало было положено многолетними нейрофизиологическими исследованиями, они достигли высшей точки в конце 40-х годов, но далее возникла пауза, для дальнейшего продвижения не было необходимых технических средств. Однако пауза длилась недолго, после 1956 года, когда восторжествовал символьный AI (Symbolic AI), возникли смелые идеи альтернативного пути к CV на основе символьного подхода с использованием универсальных компьютеров. Тогда главной казалась проблема ввода изображения в компьютер, на нее были брошены большие силы, в результате Минский с коллегами сумели успешно решить ее, после чего казалось, что от оцифрованного изображения до CV остался всего один шаг.

Этот шаг предстояло сделать профессору Сеймуру Папперту (Seymour Papert, 1928–2016) из AI Lab МТИ, он поверил в скорое решение и организовал летний проект Summer Vision Project с той же готовностью к обещаниям, которую на десять лет ранее проявил его руководитель Марвин Минский. Участие самого Папперта свелось к написанию короткой шестистраничной программы действий для группы аспирантов и студентов на несколько каникулярных месяцев. Не правда ли похоже на поручение собрать робота за время летних каникул, данное Джоном Маккарти своим аспиратам. Однако недостаточно продуманный проект, как и следовало ожидать, с треском провалился. Трудно представить подобное легкомыслии, если даже сейчас, полвека спустя многие задачи CV еще не решены. Однако этот фальстарт не мешает многим авторам признавать Сеймура Папперта одним из основоположников компьютерного зрения.

Иронизируя по поводу ошибки Сеймура Папперта, нужно отдать должное, он был замечательным ученым, сочетал в себе качества математика и психолога-педагога, создал первый язык программирования для детей Logo, где реализованы образовательные идеи швейцарского психолога и философа Жана Пиаже (Jean Piaget,1896–1980). Logo жаль, этот интересный язык, способствующий самостоятельному развитию ребенка, сейчас почти забытый он не выдержал конкуренции со стороны богатого интерфейса и неограниченных возможностей подключенных к сети устройств. Кстати, и Папперт тоже, как и многие присные к AI, родом из семьи еврейских эмигрантов из Российской империи.

Нейрофизиологические предпосылки к CV

Фундаментальные предпосылки к решению задачи компьютерного зрения были сделаны не математиками, а нейрофизиологами, причем исследования природы зрения начались существенно раньше упомянутого выше летнего семинара. Предположение о роли зрительной части головного мозга, отвечающей за обработку визуальной информации, в 1810 году выдвинул австрийский врач и анатом Франц Галль (Franz Gall, 1758–1828), известный как создатель паранауки френологии. Позже сложилось несколько школ исследования работы мозга, успешнее других механизмы зрения изучал немец Герман Мунк (Hermann Munk, 1839–1912), один из крупнейших физиологов своего времени.

В XX веке первенствовали ставшие классиками американец Дэвид Хьюбел (David Hubel, 1926–2013) и Торстен Визель (Torsten Wiesel, 1924) со статьей «Рецептивные области одного нейрона в первичной зрительной коре мозга кошки» (Receptive fields of single neurons in the cat’s striate cortex, 1959). В ней авторы показали наличие в мозге животного особого типа нейронов, способных реагировать на изображение, там же они представили общие принципы обработки визуальной информации в нейронных структурах. Хьюбел и Визель обнаружили наличие специализированных клеток, которые обрабатывают данные о фрагментах изображения и передают их в нейронную сеть более высокого уровня с тем, чтобы мозг собирал из них целостное изображение. Спустя годы за это открытие Хьюбел и Визель совместно с Роджером Сперри (Roger Sperry, 1913–1994) получили Нобелевскую премию, по физиологии и медицине «за открытия, касающиеся принципов переработки информации в нейронных структурах».

Дело Хьюбела и Визеля продолжил британец Дэвид Марр (David Marr, 1945–1980) в своей книге «Зрение: вычислительный подход к представлению и обработке визуальной информации человеком» (Vision: A computational investigation into the human representation and processing of visual information, 1982), она вышла после смерти Марра, прожившего всего 35 лет. Он стал открывателем подхода, где человеческий мозг ассоциируют с компьютером, Марр видел в нем систему, перерабатывающую входной поток сенсорной информации, он представил процесс переработки зрительной информации в виде иерархии из четырех стадий от первичной проекции внешнего объекта на сетчатку глаза до его опознания человеком. Результаты обработки зрительной информации на каждой предыдущей стадии, являются исходными данными для следующей стадии:

• Собственно видение, формирование изображения на сетчатке.

• Первичный анализ структуры изображения – выделение текстуры, контуров, формы, взаимного расположения объектов в пространстве.

• Составление эскиза – определение общей ориентации и глубины контуров, оценка глубины и расстояния от точки наблюдения до объекта.

• Построение трехмерной модели – создание общей сцены видения ситуации в виде отдельных объектов независимо от их расположения на сетчатке, формирование объемного изображения внешнего мира.

Первые практические шаги

За двадцать лет до Марра инженер Расселл Кирш (Russell Kirsch, 1929), сын выходцев из России, вместе со своими коллегами по Национальному бюро стандартов (NBS) разработал первую в мире систему оцифровки изображения. В отличие от других организаций, занимающихся стандартизацией, NBS имело сильную исследовательскую лабораторию, где в 1950 году был построен компьютер SEAC (Standards Electronic Automatic Computer), там же были созданы некоторые периферийные устройства, без которых трудно представить себе современный компьютер. Среди них дисковый накопитель, его разработал в 1951 году еще один уроженец России Яков Рабинов (Рабинович), его конструкция была доведена до коммерческого продукта в IBM. Расселл Кирш сделал в 1957 два смежных изобретения, первое – сканер, состоящий из вращающегося барабана, на который помешалось сканируемое изображение, и считывающей головки с сенсором-фотоэлементом, второе – цифровой способ записи изображения в виде матрицы, состоящей из пикселей. Возможности доступной компьютерной памяти ограничивали размер изображения несколькими килобайтами, поэтому максимальное разрешение этого сканера составило всего 179 на 179 пикселей. Собственно идея разбиения изображения на отдельные точки-пиксели была высказана еще в XIX веке, этимология этого термина неоднозначна, существует множество мнений по этому поводу. Но Кирш придумал разбивку изображения на прямоугольные пиксели и способ кодировки уровней серого. Занятно, работа эта была выполнена в инициативном порядке, что дало Киршу повод шутить относительно кражи машинного времени у более важных задач, в частности у расчетов термоядерной бомбы. Тем не менее в компьютерную историю компьютер SEAC вошел в первую очередь благодаря этой работе. Из-за ограничений по памяти пришлось ограничиться сканированием только лица младенца на той фотографии, где изобретатель держит на руках своего трехмесячного сына. Но и этого оказалось достаточно для вхождения полученного Киршем цифрового изображения в список 100 наиболее важных фотографий в истории человечества, опубликованный журналом Life в 2003 году.

Говоря о следующем персонаже – Ларри Робертсе, внесшем свой вклад с историю CV, автор вынужден сделать отступление и высказаться от первого лица. Дело в том, что мне повезло быть лично знакомым с Ларри, это случилось из-за увлечения историей интернета. Во время пребывания в Сан-Хосе, столице Кремниевой Долины, у меня выдался свободный день, в рассуждении как его использовать, я набрался смелости и позвонил ему. Ларри неожиданно пригласил меня посетить возглавляемую им тогда компанию Caspean. Позже мы с ним встречались в Москве, это было в 2002 году, вместе участвовали в передаче Матвея Ганапольского на радио «Эхо Москвы». Все это время я видел в Ларри лидера команды «отцов-основателей» интернета, куда кроме него входили Винтон Серф, Роберт Кан и Леонард Клейнрок. Хорошо известно, что Ларри Робертс взял на себя роль технического руководителя проекта ARPAnet и именно он нарисовал знаменитую схему объединения первых четырех узлов, ему же принадлежат многие предложения по части коммутационного оборудования. Вплоть до последних лет жизни он проектировал новые технологии для опорной сети интернет (backbone).

Недавно я обнаружил, что в молодости, работая над диссертацией в Линкольновской лаборатории МТИ, он создал некоторые подходы к CV и это оказалось полной неожиданностью. Оказывается, еще в 1963 году Робертс опубликовал работу «Машинное восприятие сплошных трехмерных моделей (Machine perception of three-dimensional solids), которую и поныне рассматривают как один из краеугольных камней CV. В ней он описал методы, служащие для восстановления трехмерной машинной модели предмета по его двумерной фотографии. Однако после успешной защиты диссертации Робертс не продолжил начатого, увлекшись идеями Джозефа Ликлайдера, высказанными в знаменитой статье «Межгалактическая компьютерная сеть» (Intergalactic Computer Network). В ней автор, ставший к тому времени директором Управления методов обработки информации (Information Processing Techniques Office, IPTO), описал компьютерную сеть, ставшую прообразом интернета. Идея глобальной сети показалась Робертсу более привлекательной и перспективной, реализуя ее, он приобрел всемирную известность.

40 41 42 43 Вперед