Ограниченность алгоритмов распознавания изображений / Хабр

Нет, речь пойдет не об алгоритмах распознавания изображений – речь пойдет об ограниченности их использования, в частности при создании ИИ.

По моему мнению, распознавание визуальных образов человеком и компьютерной системой сильно различается – настолько сильно, что имеет между собой мало общего. Когда человек говорит «Я вижу», на самом деле он более мыслит, чем видит, чего не скажешь о компьютерной системе, снабженной оборудованием для распознавания изображений.

Знаю, мысль не нова, но предлагаю еще раз убедиться в ее справедливости на примере робота, претендующего на обладание интеллектом. Тестовый вопрос звучит так: каким робот должен видеть окружающий мир, чтобы полностью уподобиться человеку?

Разумеется, робот должен распознавать предметы. О да, с этим алгоритмы справляются – посредством обучения на исходных образцах, насколько понимаю. Но ведь этого катастрофически мало!

I.
Во-первых, каждый предмет окружающего мира состоит из множества каких-либо предметов и в свою очередь является подмножеством других предметов. Я называю данное свойство вложенностью. А что если какой-то предмет попросту не имеет названия, соответственно его нет в базе исходных образцов, по которым обучается алгоритм – что в таком случае должен распознавать робот?

Облако, которое я в данный момент наблюдаю в окне, не имеет именованных частей, хотя очевидным образом состоит из краев и середины. Однако специальных терминов для краев и середины облака не существует, не придуманы. Для указания на неименованный объект я употребил вербальную формулировку («облако» – тип объекта, «край облака» – вербальная формулировка), что в возможности алгоритма распознавания изображений не входит.

Получается, что алгоритм без логического блока мало на что пригоден. Если алгоритм обнаружит часть целого объекта, то не всегда сможет сообразить – соответственно, робот не сможет сообщить, – что это такое.

II.
Во-вторых, перечень объектов, составляющих окружающий мир, не закрыт: он постоянно пополняется.

Человек обладает способностью конструировать объекты реальности, присваивая имена новым обнаруженным объектам, к примеру видам фауны. Коня с человеческими головой и торсом он назовет кентавром, но для этого предварительно сообразит, что у данного существа человеческие голова и торс, а все остальное – лошадиное, тем самым признает увиденный объект за новый. Так поступает человеческий мозг. А алгоритм при отсутствии вводных данных определит такое существо либо как человека, либо как лошадь: не оперируя характеристиками типов, не сумеет установить их комбинацию.

Чтобы робот уподобился человеку, он обязан уметь определять новые для него типы объектов и присваивать данным типам имена. В описаниях нового типа должны фигурировать характеристики известных типов. А если робот этого не умеет, на кой ляд он нам нужен, такой красивый?

Допустим, мы отправляем робота-разведчика на Марс. Робот видит нечто необычное, но способен идентифицировать объект исключительно в известных ему земных понятиях. Что это даст людям, выслушивающим поступающие от робота вербальные сообщения? Иногда – что-то даст, конечно (если на Марсе обнаружатся земные предметы), а в иных случаях – ничего (если марсианские предметы окажутся не похожи на земные).

Изображение – другое дело: человек сам сможет все увидеть, правильно оценить и поименовать. Только посредством не заранее обученного алгоритма распознавания изображений, а своего более хитро устроенного человеческого мозга.

III.
В-третьих, имеется некоторая проблема с индивидуализацией объектов.

Окружающий мир состоит из конкретных предметов. Собственно, видеть можно только конкретные предметы. Но в некоторых случаях их требуется вербально индивидуализировать, для чего используются либо личные имена («Вася Петров»), либо простое указание на конкретный объект, произносимое или подразумеваемое («этот стол»). То, что я называю типами объектов («люди», «столы») – всего лишь собирательные наименования предметов, обладающих определенными общими характеристиками.

Алгоритмы распознавания изображений, если обучить их на исходных образцах, будут способны распознавать как индивидуализированные, так и неиндивидуализированные объекты – это хорошо. Распознавание лиц в местах массового скопления людей и все такое. Плохо то, что такие алгоритмы не поймут, какие предметы следует распознавать в качестве обладающих индивидуальностью, а какие категорически не стоит.

Робот, как обладатель ИИ, должен бы время от времени разражаться сообщениями типа:
– Ой, а эту старушку я уже видел неделю назад!

А вот по поводу травинок злоупотреблять подобными репликами не стоит, тем более что имеются обоснованные опасения по поводу достаточности вычислительных мощностей для выполнения подобной задачи.

Мне непонятно, где проходит тонкая грань между индивидуализированной старушкой и бесчисленными полевыми травинками, которые сами по себе индивидуализированы не менее старушки, но при этом для человека никакого интереса с точки зрения индивидуализации не представляют. Что в этом смысле распознанное изображение? Почти ничего – начало сложного до мучительности восприятия окружающей действительности.

IV.
В-четвертых, динамика объектов, определяемая их взаимным пространственным расположением. Это, скажу вам, что-то!

Я сижу перед камином в глубоком кресле и теперь пытаюсь подняться.
– Что ты видишь, робот?

С нашей обыденной точки зрения робот видит, как я поднимаюсь с кресла. Что он должен ответить? Наверное, релевантным ответом будет:
– Я вижу, как ты поднимаешься с кресла.

Для этого робот должен знать, кто такой я, что такое кресло и что значит подниматься…

Алгоритм распознавания изображений после соответствующей настройки сумеет распознать меня и кресло, далее посредством сравнения кадров мы сможем определить факт взаимного удаления меня от кресла, но что значит «подниматься»? Как вообще происходит «поднимание» в физической реальности?

Если я уже поднялся и отошел, все достаточно просто. После того, как я отдалился от кресла, все предметы в кабинете не изменили пространственного положения относительно друг друга, за исключением меня, который первоначально находился в кресле, а через какое-то время оказался в отдалении от кресла. Допустимо сделать вывод, что я покинул кресло.

Если я еще пребываю в процессе вставания с кресла, все несколько сложней. Я по-прежнему нахожусь рядом с креслом, однако взаимное пространственное положение частей моего тела изменилось:

первоначально голень и туловище находились в вертикальном положении, а бедро – в горизонтальном (я сидел),
в следующий момент все части тела оказались в вертикальном положении (я встал).

Наблюдай за моим поведением человек, он мгновенно сделает вывод, что я поднимаюсь с кресла. Для человека это будет не столько логический вывод, сколько зрительное восприятие: он буквальным образом увидит, что я поднимаюсь с кресла, хотя на самом деле увидит изменение взаимного положения частей моего тела. Однако, на самом деле это будет логический вывод, который кто-то должен объяснить роботу, либо данный логический вывод робот должен выработать самостоятельно.

И то, и другое равным образом затруднительно:

вводить в начальную базу знаний сведения о том, что вставание есть последовательное изменение взаимного пространственного положения определенных частей тела, как-то не вдохновляет;
не менее глупо надеяться, что робот, как искусственное мыслящее существо, сам скоренько догадается, что изложенное выше изменение взаимного пространственного положения определенных частей тела называется вставанием. У человека данный процесс занимает годы, сколько же он займет у робота?

И при чем здесь алгоритмы распознавания изображений? Они никогда не смогут определить, что я поднимаюсь с кресла.

V.
«Вставание» – абстрактное понятие, определяется изменением характеристик материальных объектов, в данном случае изменением их взаимного пространственного положения. В общем случае это справедливо для любых абстрактных понятий, ведь сами по себе абстрактные понятия в материальном мире не существуют, а полностью зависят от материальных объектов. Хотя зачастую мы воспринимаем их как наблюдаемые воочию.

Сдвинуть челюсть вправо или влево, не открывая рот – как данное действие называется? А никак. Несомненно, по той причине, что такое движение для человека в общем-то нехарактерно. Увидеть-то робот с помощью обсуждаемых алгоритмов увидит, а что толку? В базе исходных образцов нужное наименование будет отсутствовать, и назвать зафиксированное действие робот затрудниться. А давать развернутые вербальные формулировки неименованным действиям, равно как и другим абстрактным понятиям, алгоритмы распознавания изображений не обучены.

По сути, имеем дубликат первого пункта, только в отношении не предметов, но абстрактных понятий. Впрочем, остальные пункты, предыдущие и последующие, также могут быть увязаны с абстрактными понятиями – просто обращаю внимание на повышение уровня сложности при работе с абстракциями.

VI.
В-шестых, причинно-следственные отношения.

Представьте, что вы наблюдаете, как пикап вылетает с дороги и сносит ограду. Причина того, что ограда снесена – движение пикапа, и в свою очередь движение пикапа имеет следствием снос ограды.

– Я видел это собственными глазами!
Это ответ на вопрос, видели вы случившееся или додумались до него. А что вы видели на самом деле?

Несколько предметов, в такой динамике:

пикап съехал с дороги,
пикап вплотную приблизился к ограде,
ограда изменила форму и местоположение.

Основываясь на визуальном восприятии, робот должен сообразить, что в обычном случае ограды не меняют форму и местоположение: здесь это произошло в результате контакта с пикапом. Предмет-причина и предмет-следствие должны контактировать друг с другом, иначе причинность в их отношениях отсутствует.

Хотя здесь мы попадаем в логическую ловушку, ведь контактировать с предметом-следствием могут и другие предметы, не только предмет-причина.

Допустим, в момент удара пикапа на ограду села галка. Пикап и галка контактировали с оградой одновременно: как определить, в результате какого контакта ограда оказалась снесена?

Наверное, с помощью повторяемости:

если в каждом случае, когда на ограду садится галка, ограда оказывается снесена, виновата галка;
если в каждом случае, когда в ограду врезается пикап, – виноват пикап.

Таким образом, вывод о том, что ограда снесена пикапом, – не совсем наблюдение, а результат анализа на основе наблюдения контактирующих между собой предметов.

С другой стороны, воздействие может осуществляться на расстоянии, например воздействие магнита на железный предмет. Как робот догадается, что приближение магнита к гвоздю заставляет гвоздь устремляться к магниту? Визуальная картинка не такая:

магнит приближается, но не соприкасается с гвоздем,
в то же мгновение гвоздь по собственной инициативе устремляется к магниту и соприкасается с ним.

Как видите, отслеживать причинно-следственные связи очень непросто, даже в тех случаях, когда свидетель заявляет с железной убежденностью, что видел это собственными глазами. Алгоритмы распознавания изображений здесь бессильны.

VII.
В-седьмых и в-последних, это выбор целей визуального восприятия.

Окружающая визуальная картинка может состоять из сотен и тысяч вложенных друг в друга объектов, многие из которых постоянно изменяют свое пространственное положение и другие характеристики. Очевидно, что роботу нет нужды воспринимать каждую травинку в поле, впрочем, как и каждое лицо на городской улице: воспринимать нужно только важное, зависящее от выполняемых задач.

Очевидно, что настроить алгоритм распознавания изображений на восприятие одних объектов и игнорирование других не получится, так как может быть заранее не известно, на что следует обращать внимание, а что игнорировать, тем более что текущие цели могут меняться по ходу дела. Может сложиться такая ситуация, когда сначала потребуется воспринять многие тысячи вложенных друг в друга объектов – буквально каждый из них, – проанализировать и лишь затем выдать вердикт, какие объекты существенны для решения текущей задачи, а какие не представляют интереса. Именно так воспринимает окружающий мир человек: он видит лишь важное, не обращая внимание на малоинтересные фоновые события. Каким образом ему это удается, составляет тайну.

А робот, даже оснащенный самыми современными и хитроумными алгоритмами распознавания изображений?.. Если во время нападения марсианских инопланетян он начнет доклад со сводки погоды и продолжит описанием расстилающегося перед ним нового ландшафта, то может и не успеть сообщить о самом нападении.

Выводы

Простое распознавание визуальных образов не заменит человеческих глаз.
Алгоритмы распознавания изображений – вспомогательный инструмент с весьма узкой сферой применения.
Чтобы робот начал не то что мыслить, а хотя бы видеть по-человечески, требуются алгоритмы не только распознавания образов, но и все того же полноценного и пока недостижимого человеческого мышления.