На сегодня машинное зрение – это либо просто синоним компьютерного зрения, либо компьютерное зрение, используемое в промышленности, либо более общее понятие - технология и методы, которые используются для визуального автоматического контроля, управления промышленными процессами, роботами и т.д., то есть инструмент системной инженерии. Словом, если стояла бы цель запутать человека, желающего узнать, что такое машинное зрение, то она выполнена. Но так или иначе, даже в последнем случае машинное зрение так переплетено с IT-технологиями, что иначе как компьютерным зрением это назвать трудно. Вероятно, поэтому историю машинного зрения традиционно отсчитывают от публикации в 1955 году статьи Оливера Селфриджа из Массачусетского технологического института (MIT) «Распознавание образов и современные компьютеры», а сам он провозглашен «отцом машинного восприятия». 

Словно не было камеры обскуры, рентгеновского зрения, автоматических фотоэкспонометров на полупроводниках, радаров и прочих разновидностей машинного зрения докомпьютерной эпохи, которые выпускались вполне в промышленных масштабах. Впрочем, никто не собирается лишать их собственной родословной эти образчики машинного зрения, просто в ходе их развития, которое поначалу шло по собственным траекториям инженерно-изобретательской мысли, тоже со временем насквозь пропиталось IT-технологиями машинного зрения. В общем, разбираемся откуда есть и пошло машинное зрение.

Механические глаза для ВВС и ПВО США от мистера Селфриджа

Что же касается исходной вехи в таймлайне компьютерного машинного зрения  –  статьи Оливера Селфриджа, то она была опубликована в сборнике докладов на Западной объединенной компьютерной конференции в Лос-Анджелесе в марте 1955 года и имела две сноски мелким шрифтом. В одной было указано место работы ее автора – Лаборатория имени Линкольна MIT. В другой сказано: «Работа, представленная в этом документе, была совместно профинансирована Армией, ВМС и ВВС США по контракту с лабораторией им. Линкольна». Эта лаборатория, напомним, была создана в MIT в 1951 году с одной-единственной целью – сделать ПВО США зрячей. Образно говоря, начальство американского ПВО как гоголевский Вий приказало инженерам MIT: «Поднимите мне веки: не вижу!» И тогда советские бомбардировщики, летящие с атомными бомбами на Америку, попадают бездыханными, как бурсак Хома Брут, не долетев до цели. 

В рамках выполнения этого задания Селфридж описал свой вариант программирования компьютера для оптического распознавания «некоторых визуальных образов». Но на самом деле он предлагал решение более широкой задачи. Машина должна не только видеть, все видит, например, кинокамера, но и понимать, что она видит. Иными словами, Селфридж предложил алгоритм обучения компьютера человеческому зрению, то есть это была задача из области искусственного интеллекта. Оливер Селфридж был не единственным, кто попытался научить машину видеть, как человек, и думать, как человек. Но он первым вплотную подошел к этой проблеме с точки зрения математика и программиста, а не нейрофизиологов, каковые в те годы были главной движущей силой зарождавшего учения об ИИ.

Внук основателя сети универмагов Selfridges в Англии и мультимиллионера Гарри Селфриджа, правда, тогда уже разорившегося, Оливер Селфридж в 19 лет окончил MIT со степенью бакалавра по математике и стал аспирантом профессора физического факультета MIT Норберта Винера. Диссертацию он так и не защитил, зато познакомился с Уолтером Питтсом, который тоже был тогда аспирантом Винера, и через него с Уорреном Маккаллоком и, разумеется, с их видением искусственных нейросетей. Много лет спустя Селфридж вспоминал: «Изучая математику (мою первоначальную область специализации) и общаясь с Норбертом, Уорреном и Уолтером, я начал интересоваться специфическими процессами, которые могут выполнять нейронные сети, и еще больше — общими свойствами обучения. <…> Джонни фон Нейман время от времени навещал нас в Массачусетском технологическом институте, так что, опять же по чистой случайности, еще до того, как мне исполнилось двадцать, я познакомился с Маккаллоком, Питтсом, Винером и фон Нейманом».

В своей статье 1955 года «Распознавание образов и современные компьютеры» Селфридж  пишет: «Мы рассмотрим процесс, который мы называем распознаванием образов (паттернов). Под распознаванием образов мы подразумеваем выделение значимых признаков на фоне несущественных деталей. Мы заинтересованы в моделировании этого процесса на цифровых компьютерах по нескольким причинам. Во-первых, это то, с чем мозг, похоже, справляется очень хорошо. Во-вторых, это та область, с которой вычислительные машины пока справляются не очень хорошо. В-третьих, это продуктивная задача  –  она естественным образом приводит к изучению других процессов, таких как обучение. И, наконец, она сама по себе имеет множество интересных применений» И добавляет: «Мы не будем здесь рассматривать ту ценную работу, которая была уже проделана и ведется сейчас в других местах».

В его программе компьютер должен был научиться распознавать простые геометрические фигуры и буквы, для начала пусть несколько букв. Сейчас со стороны видно, сколько проблем возникало при решении такой, казалось, простой задачи. Ведь в идеале речь шла не о некоем стандартном типографском кегле, который следовало учредить для машин, а об обычных печатных и рукописных текстах. Следовало учитывать толщину, длину, угол наклона отрезков прямой и дуг окружностей, составляющих геометрию буквы, разницу между заглавными и строчными буквами, а главное – отсутствие у машины априорных знаний о том, что он видит. Например, машина никогда не смогла бы отличить букву С от U, которая просто повернута на 90 градусов, если ее не научить это видеть.  

Как это сделать? «Скорее, мы попытаемся заставить компьютер делать то, что, по моему мнению, делаем мы в подобном случае, – пишет Селфридж. – Я повторяю наше определение: распознавание образов – это выделение значимых признаков из множества несущественных деталей. Нам казалось, что это ключевой момент обучения. В общем, если кто-то хочет, чтобы компьютер выполнял какую-то работу, он должен просто достаточно точно указать, что это за работа. Так или иначе, огромное количество информации должно быть отфильтровано до самой важной или ценной части. Этот процесс, который мы называем распознаванием образов, может быть более или менее сложным. …Мы попытались указать один из способов, с помощью которого компьютер может распознавать некоторые простые визуальные образы и который может улучшить распознавание путем обучения».

Пандемониум машинного зрения

Продолжением его теории распознавания машиной букв, но уже с заметным креном в область искусственных нейросетей стал его доклад «Пандемониум: парадигма обучения» на симпозиуме по «Механизация  мыслительных процессов» («Mechanisation of Thought Processes») в ноябре 1958 года. Он был опубликован в следующем 1959 году в «Трудах Национальной физической лаборатории Англии», организатора симпозиума с таким коробящим слух психологов и теоретиков когнитивистики названием. Термин «искусственный интеллект» тогда еще не прижился, но участники симпозиума прекрасно понимали, о чем идет речь. В конце статьи Селфридж выразил признательность «за ценный вклад в ходе дискуссий со многими друзьями, в том числе, в особенности, с М. Минским, У. Найссером, Ф. Фриком и Дж. Леттвиным». Все они были из первого поколения строителей современного ИИ. 

Вступление к статье
Вступление к статье

 В «Пандемониуме» Селфриджа, который был попыткой свести нейрофизиологический процесс визуального восприятия к простой математической модели, а ту, в свою очередь, «механизировать» на компьютере, присутствуют четыре разновидности демонов разной иерархии. «На нижней ступеньке стоят демоны данных или изображений (data or image demons), которые служат только для хранения и передачи изображений, – рассказывал участникам симпозиума Селфридж. На следующем уровне вычислительные демоны (computational demons), или субдемоны, выполняют определенные более или менее сложные вычисления с данными и передают их результаты на следующий уровень когнитивным демонам (cognitive demons), которые взвешивают доказательства, и каждый из них, так сказать, вычисляет силу своего вопля. А потом из всех их воплей демон самого высокого уровня, принимающий решения (decision demon), просто выбирает самый громкий крик». 

«Каждому демону, например, может быть присвоена одна буква алфавита, – рассуждает Селфридж, – так что задача А-демона состоит в том, чтобы кричать как можно громче о количестве А-ностей, которые он видит на изображении. Можно сформулировать это и так: А–демон вычисляет расстояние в некоторой фазе изображения от некоторого идеального А. Но мне кажется излишне платоническим постулировать существование "идеальных" представителей паттернов, и действительно часто есть веские причины для того, чтобы этого не делать».

«Все это предполагает, – продолжает Селфридж, – что мы следим за машиной и сообщаем ей, когда она допускает ошибку…, но в какой-то момент нам очень захочется, чтобы машина работала без непосредственного контроля, и тогда, естественно, возникнет вопрос, может ли машина эффективно контролировать свою работу». Далее он говорит, что ему, вероятно, придется для этого заменить «старшего демона или демона, принимающего решения, на ряд из примерно сорока демонов-персонажей с новым демоном, принимающим решения, над ними, позволяя новым когнитивным демонам использовать всех низших демонов, когнитивных и прочих, для своих целей. Но такую модель пятиэтажного машинного Пандемония, места обитания своих демонов, Селфридж так и не создал.

Коллеги-математики и айтишники, слушавшие доклад Селфриджа на лондонской конференции в 1958 года, судя по стенографическому отчету его обсуждения, приняли его идею более чем сдержанно. Ему даже пришлось в ходе обсуждения еще раз вкратце повторить суть того, что он хотел сказать. Чего нельзя сказать о психоневрологах, для которых Пандемониум Сел��риджа как модель распознавания зрительного образа от простого к сложному была настоящим открытием и, несмотря на время от времени возникавшую потом критику, до сих пор считается в когнитивистике основой визуального восприятия. 

Демоны в машине

В 1972 году вышла книга «Обработка информации человеком: Введение в Психологию», где ее авторы известные когнитивисты того времени Питер Линдсей и Дональд Норман изложили для коллег теорию Селфриджа более простыми словами и даже в известной мере образно. Масса вычислительных демонов, каждый из которых имеет свою специализацию, настроенных на видение горизонтальной прямой, вертикальной прямой, дуги и т.д., завидев свое, кричат. Когнитивные демоны, каждый из которых настроен на определенный образ, например на какую-то из букв алфавита, услышав особенно громкие крики о присутствии элементов подведомственного каждому из них изображения, возбуждаются и тоже начинают орать изо всех сил. Всю их какофонию внимательно слушает главный демон, принимающий решения, и решает, что же он видит на самом деле. Книга Питера Линдсея и Дональда Нормана пользовалась такой популярностью, что в 1977 году ее пришлось переиздать, а третье ее издание вышла уже в нашем веке.

Нормальному человеку остается только понять, с чего вдруг воспитанный и образованный джентльмен Оливер Селфридж словно средневековый экзорцист из инквизиции решил отдать программирование компьютеров демонам, а безобидный мейнфрейм превратить в штаб-квартирую самого Пандемониума, то есть Сатаны. Даже в кошмаре невозможно себе представить, чтобы пионер программирования в нашей стране членкор АН СССР Алексей Ляпунов или трижды Герой Социалистического труда академик Мстислав Келдыш публиковали бы в «Докладах АН СССР» статьи о дьяволе и чертях в советских ЭВМ. 

Объяснение тут простое. В греческом языке, латыни, английском и французском языках Пандемониум исходно был первым падшим ангелом, тем самым, соблазнившем Адама и Еву яблоком с древа Познания, и, конечно же, Селфридж проходил в школе «Потерянный рай» Мильтона с Пандемониумом-Сатаной и мириадами его демонов. Но Мильтон написал это в XVII веке, а в XX веке и даже раньше слово «pandemonium» в английском и французском языках стало общеупотребительным, даже расхожим, обозначающим столпотворение, хаос. Потому Максвелл без каких-либо библейских ассоциаций, образно иллюстрируя второе начало термодинамики, писал о демоне, пропускающим через перегородку в сосуде только быстрые, горячие молекулы и закрывающий дверцу в перегородке для медленны, холодных. Точно так же поступил Селфридж, и его аллегория точно так же, как в случае Максвелла, никого не смутила.

Следующая веха в канонической истории машинного зрения – статья Оливера Селфриджа «Глаза и уши для компьютеров» в соавторстве с инженером из Bell Labs Эдом Дэвидом-младшим (с ним Селфридж в 1940-е годы учился у Винера в MIT), была опубликована в майском номере за 1962 год журнала «Proceedings of the IRE». Этот журнал в 1961-62 гг. выходил в русском переводе под названием «Труды Института радиоинженеров», так что те, кому это было интересно и нужно, прочитали ее и у нас.  

Но она носила скорее публицистический характер, нежели инженерный (инженеры и изобретатели обо всем, что там было написано, и так знали). Более того, писалась она с явным прицелом на инвесторов. Даже ориентировочная стоимость «глаза» и уха» компьютера там указана: «Затраты будут большими. Но помните, что одно считывающее устройство ввода может (потенциально) заменить сотни людей, считывающих с клавиатуры. <…> Это будет крупное оборудование, стоимость которого может составлять 20 000 долларов в год». Звучал там и призыв к патриотизму, причем дважды: «Все согласятся с тем, что у нас должны быть автоматические вводные данные раньше, чем у русских» – в начале статьи, и «Мы должны получить эти экзотические датчики раньше русских» – в ее конце. 

И что самое неожиданное, по какой-то странной причине в ней в самом начале, в третьем абзаце, присутствовал сексизм в весьма неприглядном виде: «Женщины плохо приспособлены к такой черной работе (оператора по вводу данных – Ред.). И хотя женщин, по-видимому, легче подчинить, они тоже, как правило, дорогие, медлительные и неточные. Поэтому мы все чаще обращаемся к компьютерам для обработки этих сильно изменчивых входных сигналов, важные характеристики которых не просто связаны с их физическими свойствами». Словно не было Ады Лавлейс, «великолепной шестерки» ENIAC girls, программировавших первый в мире электронный мейнфрейм, академика Екатерины Ющенко, программиста МЭСМ и БЭСМ и соавтора первого в СССР учебника по программированию, вышедшего в 1961 году, и относящейся к тем самым русским, которые, как опасался Селфридж, могут опередить американцев в создании «экзотических» датчиков уха и глаза компьютера… 

В целом же это был классический образчик хорошо аргументированной и в меру сдержанной футурологии, за что, наверное, так любят эту статью Селфриджа копирайтеры. «На заре компьютеров мы все изучали набор теорем Тьюринга и фон Неймана, которые говорили нам (или мы так думали), что компьютер может делать все, что мы ему скажем. Нам просто (!) нужно достаточно точно указать, что именно мы хотим, чтобы машина делала, – каялся Селфридж в своем совсем недавнем неоправданном оптимизме, имея в виду и свой «Пандемониум». – Это правда, что некоторые сильно изменяющиеся входные сигналы могут быть классифицированы с помощью сложных, исчерпывающих программ, но таким образом просто невозможно запрограммировать распознавание печатных текстов, речи, рукописного ввода, сигналов радара и гидролокатора, а также объектов на фотографиях (например, облаков на спутниковых метеоснимках). <….> Мы считаем, что прогресс в создании полезных и эффективных "глаз и ушей" для компьютеров был, возможно, медленнее, чем это необходимо; отчасти потому, что мы серьезно недооценивали трудности. <….> Современные технологии автоматической индексации и абстрагирования еще неадекватны. <….> Но мы уже на шаг впереди. Проблемы, которые мы обсуждаем сегодня, решаются. Здесь, по крайней мере, мы можем быть абсолютно уверены в том, что определили одну из проблем завтрашнего дня».

Первое зрячее железо

День этот был, впрочем, не завтрашним, а тогда уже сегодняшним. В 1958 году Фрэнк Розенблатт из Корнельской лаборатории аэронавтики презентовал первую версию своего «воспринимающего и распознающего автомата» на мейнфрейме IBM 704 и начал строить аппаратную версию первого в мире зрячего нейрокомпьютера «Mark I Perceptron», каковая была окончательно отлажена как раз к 1962 году. И это был не теоретическое «столпотворение» Селфриджа, а реальное зрячее «железо» размером с рояль с искусственной нейросетью из нейронов Хебба, запрограммированное на понимание и запоминание увиденного. 

Демоны, впрочем, там тоже присутствовали: и вычислительные, и когнитивные, последние в виде «клеточных ансамблей» синапсов Хебба. Они-то и испускали крики в двоичном формате (есть крик - 1, нет крика - 0) в виде электронных импульсов, и если суммированные ими сигналы превышали запрограммированный порог, крик проходил на следующий уровень. Или тормозили импульсы, если их сумма не достигала порога. Кстати, «Пандемоний» Розенблатта, его Mark I Perceptron, был довольно шумным, при работе он постоянно издавал треск, которому удивлялись гости Розенблатта, приходившие посмотреть на его изобретение и не догадывавшиеся, что своими ушами слышат крики демонов Селфриджа, усиленные электромеханическими деталями компьютера Розенблатта. Высшей сатанинской силой у Розенблатта обладал оператор компьютера, который регулировал пороги восприятия, исправляя ошибки и поощряя правильное распознавание паттерна и его запоминание.  

Хотя Mark I Perceptron Розенблатта критик��вали все, кому не лень, именно его трехслойная нейронная сеть из «демонов» разной иерархии заставила математиков-программистов спустя десять лет все-таки заняться моделированием многослойных нейросетей и создать алгоритм обратного распространения ошибки (первым это, кстати, сделал сотрудник Московского института электронного машиностроения Александр Иванович Галушкин в своей докторской диссертации), который лег в основу метода глубинного обучения со всеми, как говорится, последствиями, в том числе нынешним объемом мирового рынка серверов глубокого обучения в сфере машинного зрения в $5,13 млрд и прогнозом его роста в 10 раз в ближайшие 10 лет. Уж больно хочется всем нам облагородить свой облик на экране смартфона (или, напротив, исказить чужой до безобразия), заставить двигаться персонажей моментального фото и поиграться прочими прелестями современного машинного видения.

Но все это появилось потом, а тогда первый зрячий компьютер был подслеповатым, страдал всеми классическими признаками человеческого астигматизма в тяжелой форме, мог отличить разве что круг от квадрата, а квадрат от ромба, путал буквы, но то, что запоминал, уже не забывал. В 1961 году Розенблатт подал патентную заявку на изобретение «Устройства для распознавания образов (паттернов)», (сам патент США №3192505 он получил в 1965 году). 

Патент General Electric
Патент General Electric

Интересна в нем самая первая фраза: «Данное изобретение относится к усовершенствованию устройств распознавания (зрительных – Ред.) образов», а точнее слово «усовершенствование» в ней. На изобретение чего-то принципиального нового Розенблатт не претендовал. Такие устройства распознавания уже патентовались в середине 1950-х годов, иногда с современной точки зрения экзотические. Вот, например, патент США с юбилейным номером 3000000, полученный General Electric Co в 1961 году (с приоритетом от июня 1955 года) на «Автоматическую систему считывания», в которой «символы (буквы, цифры, значки), написанные от руки или напечатанные магнитными чернилами на человеческом языке преобразуются в машинный язык, чтобы потом сканирующее устройство преобразовывало полученную информацию в форму, удобную для передачи куда надо или в тактильную или звуковую форму для восприятия незрячими людьми». 

О сервисе Онлайн Патент

Онлайн Патент — цифровая система № 1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech‑решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн‑Патент и получите доступ к следующим услугам: