
Нет, речь пойдет не об алгоритмах распознавания изображений – речь пойдет об ограниченности их использования, в частности при создании ИИ.
По моему мнению, распознавание визуальных образов человеком и компьютерной системой сильно различается – настолько сильно, что имеет между собой мало общего. Когда человек говорит «Я вижу», на самом деле он более мыслит, чем видит, чего не скажешь о компьютерной системе, снабженной оборудованием для распознавания изображений.
Знаю, мысль не нова, но предлагаю еще раз убедиться в ее справедливости на примере робота, претендующего на обладание интеллектом. Тестовый вопрос звучит так: каким робот должен видеть окружающий мир, чтобы полностью уподобиться человеку?
Разумеется, робот должен распознавать предметы. О да, с этим алгоритмы справляются – посредством обучения на исходных образцах, насколько понимаю. Но ведь этого катастрофически мало!
I.
Во-первых, каждый предмет окружающего мира состоит из множества каких-либо предметов и в свою очередь является подмножеством других предметов. Я называю данное свойство вложенностью. А что если какой-то предмет попросту не имеет названия, соответственно его нет в базе исходных образцов, по которым обучается алгоритм – что в таком случае должен распознавать робот?
Облако, которое я в данный момент наблюдаю в окне, не имеет именованных частей, хотя очевидным образом состоит из краев и середины. Однако специальных терминов для краев и середины облака не существует, не придуманы. Для указания на неименованный объект я употребил вербальную формулировку («облако» – тип объекта, «край облака» – вербальная формулировка), что в возможности алгоритма распознавания изображений не входит.
Получается, что алгоритм без логического блока мало на что пригоден. Если алгоритм обнаружит часть целого объекта, то не всегда сможет сообразить – соответственно, робот не сможет сообщить, – что это такое.
II.
Во-вторых, перечень объектов, составляющих окружающий мир, не закрыт: он постоянно пополняется.
Человек обладает способностью конструировать объекты реальности, присваивая имена новым обнаруженным объектам, к примеру видам фауны. Коня с человеческими головой и торсом он назовет кентавром, но для этого предварительно сообразит, что у данного существа человеческие голова и торс, а все остальное – лошадиное, тем самым признает увиденный объект за новый. Так поступает человеческий мозг. А алгоритм при отсутствии вводных данных определит такое существо либо как человека, либо как лошадь: не оперируя характеристиками типов, не сумеет установить их комбинацию.
Чтобы робот уподобился человеку, он обязан уметь определять новые для него типы объектов и присваивать данным типам имена. В описаниях нового типа должны фигурировать характеристики известных типов. А если робот этого не умеет, на кой ляд он нам нужен, такой красивый?
Допустим, мы отправляем робота-разведчика на Марс. Робот видит нечто необычное, но способен идентифицировать объект исключительно в известных ему земных понятиях. Что это даст людям, выслушивающим поступающие от робота вербальные сообщения? Иногда – что-то даст, конечно (если на Марсе обнаружатся земные предметы), а в иных случаях – ничего (если марсианские предметы окажутся не похожи на земные).
Изображение – другое дело: человек сам сможет все увидеть, правильно оценить и поименовать. Только посредством не заранее обученного алгоритма распознавания изображений, а своего более хитро устроенного человеческого мозга.
III.
В-третьих, имеется некоторая проблема с индивидуализацией объектов.
Окружающий мир состоит из конкретных предметов. Собственно, видеть можно только конкретные предметы. Но в некоторых случаях их требуется вербально индивидуализировать, для чего используются либо личные имена («Вася Петров»), либо простое указание на конкретный объект, произносимое или подразумеваемое («этот стол»). То, что я называю типами объектов («люди», «столы») – всего лишь собирательные наименования предметов, обладающих определенными общими характеристиками.
Алгоритмы распознавания изображений, если обучить их на исходных образцах, будут способны распознавать как индивидуализированные, так и неиндивидуализированные объекты – это хорошо. Распознавание лиц в местах массового скопления людей и все такое. Плохо то, что такие алгоритмы не поймут, какие предметы следует распознавать в качестве обладающих индивидуальностью, а какие категорически не стоит.
Робот, как обладатель ИИ, должен бы время от времени разражаться сообщениями типа:
– Ой, а эту старушку я уже видел неделю назад!
А вот по поводу травинок злоупотреблять подобными репликами не стоит, тем более что имеются обоснованные опасения по поводу достаточности вычислительных мощностей для выполнения подобной зада��и.
Мне непонятно, где проходит тонкая грань между индивидуализированной старушкой и бесчисленными полевыми травинками, которые сами по себе индивидуализированы не менее старушки, но при этом для человека никакого интереса с точки зрения индивидуализации не представляют. Что в этом смысле распознанное изображение? Почти ничего – начало сложного до мучительности восприятия окружающей действительности.
IV.
В-четвертых, динамика объектов, определяемая их взаимным пространственным расположением. Это, скажу вам, что-то!
Я сижу перед камином в глубоком кресле и теперь пытаюсь подняться.
– Что ты видишь, робот?
С нашей обыденной точки зрения робот видит, как я поднимаюсь с кресла. Что он должен ответить? Наверное, релевантным ответом будет:
– Я вижу, как ты поднимаешься с кресла.
Для этого робот должен знать, кто такой я, что такое кресло и что значит подниматься…
Алгоритм распознавания изображений после соответствующей настройки сумеет распознать меня и кресло, далее посредством сравнения кадров мы сможем определить факт взаимного удаления меня от кресла, но что значит «подниматься»? Как вообще происходит «поднимание» в физической реальности?
Если я уже поднялся и отошел, все достаточно просто. После того, как я отдалился от кресла, все предметы в кабинете не изменили пространственного положения относительно друг друга, за исключением меня, который первоначально находился в кресле, а через какое-то время оказался в отдалении от кресла. Допустимо сделать вывод, что я покинул кресло.
Если я еще пребываю в процессе вставания с кресла, все несколько сложней. Я по-прежнему нахожусь рядом с креслом, однако взаимное пространственное положение частей моего тела изменилось:
- первоначально голень и туловище находились в вертикальном положении, а бедро – в горизонтальном (я сидел),
- в следующий момент все части тела оказались в вертикальном положении (я встал).
Наблюдай за моим поведением человек, он мгновенно сделает вывод, что я поднимаюсь с кресла. Для человека это будет не столько логический вывод, сколько зрительное восприятие: он буквальным образом увидит, что я поднимаюсь с кресла, хотя на самом деле увидит изменение взаимного положения частей моего тела. Однако, на самом деле это будет логический вывод, который кто-то должен объяснить роботу, либо данный логический вывод робот должен выработать самостоятельно.
И то, и другое равным образом затруднительно:
- вводить в начальную базу знаний сведения о том, что вставание есть последовательное изменение взаимного пространственного положения определенных частей тела, как-то не вдохновляет;
- не менее глупо надеяться, что робот, как искусственное мыслящее существо, сам скоренько догадается, что изложенное выше изменение взаимного пространственного положения определенных частей тела называется вставанием. У человека данный процесс занимает годы, сколько же он займет у робота?
И при чем здесь алгоритмы распознавания изображений? Они никогда не смогут определить, что я поднимаюсь с кресла.
V.
«Вставание» – абстрактное понятие, определяется изменением характеристик материальных объектов, в данном случае изменением их взаимного пространственного положения. В общем случае это справедливо для любых абстрактных понятий, ведь сами по себе абстрактные понятия в материальном мире не существуют, а полностью зависят от материальных объектов. Хотя зачастую мы воспринимаем их как наблюдаемые воочию.
Сдвинуть челюсть вправо или влево, не открывая рот – как данное действие называется? А никак. Несомненно, по той причине, что такое движение для человека в общем-то нехарактерно. Увидеть-то робот с помощью обсуждаемых алгоритмов увидит, а что толку? В базе исходных образцов нужное наименование будет отсутствовать, и назвать зафиксированное действие робот затрудниться. А давать развернутые вербальные формулировки неименованным действиям, равно как и другим абстрактным понятиям, алгоритмы распознавания изображений не обучены.
По сути, имеем дубликат первого пункта, только в отношении не предметов, но абстрактных понятий. Впрочем, остальные пункты, предыдущие и последующие, также могут быть увязаны с абстрактными понятиями – просто обращаю внимание на повышение уровня сложности при работе с абстракциями.
VI.
В-шестых, причинно-следственные отношения.
Представьте, что вы наблюдаете, как пикап вылетает с дороги и сносит ограду. Причина того, что ограда снесена – движение пикапа, и в свою очередь движение пикапа имеет следствием снос ограды.
– Я видел это собственными глазами!
Это ответ на вопрос, видели вы случившееся или додумались до него. А что вы видели на самом деле?
Несколько предметов, в такой динамике:
- пикап съехал с дороги,
- пикап вплотную приблизился к ограде,
- ограда изменила форму и местоположение.
Основываясь на визуальном восприятии, робот должен сообразить, что в обычном случае ограды не меняют форму и местоположение: здесь это произошло в результате контакта с пикапом. Предмет-причина и предмет-следствие должны контактировать друг с другом, иначе причинность в их отношениях отсутствует.
Хотя здесь мы попадаем в логическую ловушку, ведь контактировать с предметом-следствием могут и другие предметы, не только предмет-причина.
Допустим, в момент удара пикапа на ограду села галка. Пикап и галка контактировали с оградой одновременно: как определить, в результате какого контакта ограда оказалась снесена?
Наверное, с помощью повторяемости:
- если в каждом случае, когда на ограду садится галка, ограда оказывается снесена, виновата галка;
- если в каждом случае, когда в ограду врезается пикап, – виноват пикап.
Таким образом, вывод о том, что ограда снесена пикапом, – не совсем наблюдение, а результат анализа на основе наблюдения контактирующих между собой предметов.
С другой стороны, воздействие может осуществляться на расстоянии, например воздействие магнита на железный предмет. Как робот догадается, что приближение магнита к гвоздю заставляет гвоздь устремляться к магниту? Визуальная картинка не такая:
- магнит приближается, но не соприкасается с гвоздем,
- в то же мгновение гвоздь по собственной инициативе устремляется к магниту и соприкасается с ним.
Как видите, отслеживать причинно-следственные связи очень непросто, даже в тех случаях, когда свидетель заявляет с железной убежденностью, что видел это собственными глазами. Алгоритмы распознавания изображений здесь бессильны.
VII.
В-седьмых и в-последних, это выбор целей визуального восприятия.
Окружающая визуальная картинка может состоять из сотен и тысяч вложенных друг в друга объектов, многие из которых постоянно изменяют свое пространственное положение и другие характеристики. Очевидно, что роботу нет нужды воспринимать каждую травинку в поле, впрочем, как и каждое лицо на городской улице: воспринимать нужно только важное, зависящее от выполняемых задач.
Очевидно, что настроить алгоритм распознавания изображений на восприятие одних объектов и игнорирование других не получится, так как может быть заранее не известно, на что следует обращать внимание, а что игнорировать, тем более что текущие цели могут меняться по ходу дела. Может сложиться такая ситуация, когда сначала потребуется воспринять многие тысячи вложенных друг в друга объектов – буквально каждый из них, – проанализировать и лишь затем выдать вердикт, какие объекты существенны для решения текущей задачи, а какие не представляют интереса. Именно так воспринимает окружающий мир человек: он видит лишь важное, не обращая внимание на малоинтересные фоновые события. Каким образом ему это удается, составляет тайну.
А робот, даже оснащенный самыми современными и хитроумными алгоритмами распознавания изображений?.. Если во время нападения марсианских инопланетян он начнет доклад со сводки погоды и продолжит описанием расстилающегося перед ним нового ландшафта, то может и не успеть сообщить о самом нападении.
Выводы
- Простое распознавание визуальных образов не заменит человеческих глаз.
- Алгоритмы распознавания изображений – вспомогательный инструмент с весьма узкой сферой применения.
- Чтобы робот начал не то что мыслить, а хотя бы видеть по-человечески, требуются алгоритмы не только распознавания образов, но и все того же полноценного и пока недостижимого человеческого мышления.
