Там, где человек видит формы, ИИ видит текстуры / Хабр

К удивлению исследователей, алгоритмы компьютерного зрения с глубоким обучением часто не справляются с классификацией изображений потому, что они в основном ориентируются на текстуры, а не на формы.

Если вы посмотрите на фотографию кошки, с большой вероятностью вы сможете узнать это животное, вне зависимости от того, будет оно рыжим или полосатым – или даже если фотография будет чёрно-белой, запятнанной, потрёпанной или потускневшей. Вероятно, вы сможете заметить кошку, когда она свернулась клубочком за подушкой или прыгает на стол, представляя собой лишь размытую форму. Вы естественным образом научились распознавать кошек почти в любой ситуации. А вот системы машинного зрения, работающие на основе глубоких нейросетей, хотя иногда и способны обставлять людей в задачах распознавания кошек при фиксированных условиях, но могут оказаться сбитыми с толку при помощи изображений, которые хоть немного отличаются от им известных, или же содержат шум или слишком сильную зернистость.

И теперь немецкие исследователи обнаружили неожиданную причину этого: если люди обращают внимание на формы изображённых объектов, компьютерное зрение с глубинным обучением цепляется за текстуры объектов.

Это открытие, представленное в мае на международной конференции представлений обучения, подчёркивает резкий контраст между «мышлением» людей и машин, и иллюстрирует, насколько мы можем ошибаться в представлении о том, как работает ИИ. А также это может подсказать нам, почему наше зрение стало таким в результате эволюции.

Кошки со слоновьей кожей и самолёты из часов

Алгоритмы глубокого обучения работают, прогоняя через нейросеть тысячи изображений, на которых либо есть кошка, либо нет. Система ищет в этих данных закономерности, которые потом использует, чтобы поставить ранее не встречавшемуся ей изображению наилучшую метку. Архитектура сети немного напоминает строение зрительной системы человека, поскольку в ней есть связанные слои, позволяющие ей извлекать всё более абстрактные признаки из изображения. Однако процесс построения системой ассоциаций, ведущих к правильному ответу, представляет собой чёрный ящик, который люди могут лишь пытаться интерпретировать постфактум. «Мы пытались понять, что ведёт к успеху этих алгоритмов компьютерного зрения с глубоким обучением, и почему они настолько уязвимы», — сказал Томас Диттерих, специалист по информатике из Орегонского университета, не связанный с данным исследованием.

Некоторые исследователи предпочитают изучать, что происходит, когда они пытаются обмануть сеть, немного изменяя изображение. Они обнаружили, что даже небольшие изменения могут заставить систему совершенно неправильно пометить изображение – а большие изменения могут не привести к изменению метки. Тем временем, другие эксперты отслеживают изменения в системе, чтобы проанализировать, как отдельные нейроны реагируют на изображение, и составляют "атлас активаций" на основе признаков, которым обучилась система.

Но группа учёных из лабораторий вычислительного нейробиолога Матиаса Бетге и психофизиолога Феликса Вичмана из Тюбингенского университета в Германии избрала качественный подход. В прошлом году команда сообщила, что при обучении изображений, изменённых шумом определённого вида, сеть стала распознавать изображения лучше людей, пытавшихся разобрать такие же зашумлённые картинки. Однако те же самые изображения, видоизменённые чуть-чуть по-другому, совершенно сбили сеть с толку, хотя для людей новое искажение выглядело практически так же, как и старое.

Роберт Гейрос, аспирант по вычислительной нейробиологии из Тюбингенского университета

Чтобы объяснить этот результат, исследователи задумались, какое качество изображения меняется больше всего даже при добавлении небольшого шума. Очевидным выбором стали текстуры. «Форма объекта остаётся более-менее невредимой, если долгое время добавлять много шума», — сказал Роберт Гейрос, аспирант в лабораториях Бетге и Вичмана, ведущий автор исследования. Но «локальная структура изображения искажается очень быстро при добавлении небольшого количества шума». Поэтому они придумали хитроумный способ проверки того, как зрительные системы машин и людей обрабатывают изображения.

Гейрос, Бетге и их коллеги создали изображения с двумя противоречивыми особенностями, взяв форму от одного объекта, а текстуру от другого: к примеру, силуэт кошки, раскрашенный серой текстурой слоновьей кожи, или медведь, составленный из алюминиевых банок, или силуэт самолёта, заполненный накладывающимися друг на друга изображениями циферблатов. Люди размечали сотни таких изображений на основе их форм – кошка, медведь, самолёт – почти каждый раз, как и предполагалось. Однако четыре разных алгоритма классификации склонялись в другую сторону, выдавая метки, отражавшие текстуры объектов: слона, банок, часов.

«Это меняет наше представление о том, как глубокие нейросети с прямым распространением – без дополнительных настроек, после обычного процесса обучения – распознают образы», — сказал Николаус Кригескорте, вычислительный нейробиолог из Колумбийского университета, не участвовавший в исследовании.

На первый взгляд предпочтение у ИИ текстур формам может показаться странным, но оно имеет смысл. «Текстура – это что-то вроде формы в большом разрешении», — сказал Кригескорте. И к такому масштабу системе легче цепляться: количество пикселей с информацией о текстурах значительно превышает количество пикселей, составляющих границу объекта, а самые первые шаги сети связаны с распознаванием локальных признаков, типа линий и граней. «Именно это и есть текстура», — сказал Джон Цоцос, специалист по вычислительному зрению из Йоркского университета в Торонто, не связанный с этим исследованием. «К примеру, группировка отрезков, выстраивающихся одинаковым образом».

Гейрос с коллегами показали, что этих локальных признаков достаточно, чтобы сеть провела классификацию. Это доказательство Бетге и ещё один из авторов исследования, постдок Виланд Брендель, довели до законченного вида в работе, которую также представляли на майской конференции. В той работе они построили систему с глубоким обучением, работающую примерно так же, как работали алгоритмы классификации до распространения глубокого обучения – по принципу «мешка признаков». Алгоритм разбивает картинку на мелкие фрагменты, как и текущие модели (такие, которые Гейрос использовал в своём эксперименте), но потом, вместо того, чтобы постепенно интегрировать эту информацию для извлечения признаков более высокого уровня абстракции, алгоритм сразу делает предположение о содержимом каждого кусочка («в этом кусочке есть свидетельства наличия велосипеда, в этом – наличия птицы»). Он просто складывал все решения, чтобы определить объект («если больше кусочков содержат признаки велосипеда, то это велосипед»), не обращая внимания на пространственные взаимоотношения кусочков. И всё же он смог распознавать объекты с неожиданно высокой точностью.

«Эта работа бросает вызов предположению о том, что глубокое обучение делает что-то совершенно отличное» от предыдущих моделей, сказал Брендель. «Очевидно, был совершён большой скачок. Я просто говорю о том, что он оказался не таким большим, как надеялись некоторые».

Согласно Амиру Розенфельду, постдоку из Йоркского университета и университета Торонто, не участвовавшему в исследовании, «между тем, что нейросети должны, по нашему мнению, делать, и тем, что они делают, существует большая разница», включая то, насколько хорошо удаётся им воспроизводить поведение человека.

Брендель высказался в том же ключе. Легко предположить, что нейросети будут решать задачи так же, как люди, сказал он. «Однако мы постоянно забываем о существовании других методов».

Сдвиг в сторону более человеческого взгляда на вещи

Современные методы глубокого обучения могут интегрировать локальные признаки, типа текстур, в более глобальные закономерности, вроде форм. «Что в этих работах неожиданно и очень убедительно показано – хотя архитектура позволяет классифицировать стандартные изображения, этого не происходит автоматически, если вы просто обучаете сеть этому», — сказал Кригескорте.

Гейрос хотел посмотреть, что получится, если команда заставит модели игнорировать текстуры. Команда взяла изображения, традиционно используемые для обучения алгоритмов классификации, и раскрасила их в разных стилях, лишив их полезной информации о текстурах. Когда они переобучили каждую модель на новых изображениях, системы начали полагаться на более крупные, глобальные закономерности, и показали большую склонность в сторону распознавания форм, что было больше похоже на людей.

Виланд Брендель, вычислительный нейробиолог из Тюбингенского университета в Германии

А ещё после этого алгоритмы стали лучше классифицировать шумные изображения, даже когда их не обучали иметь дело с подобными искажениями. «Сеть, распознающая формы, совершенно бесплатно стала более надёжной, — сказал Гейрос. – Это говорит о том, что правильная предвзятость для выполнения определённых задач, в нашем случае – склонность к использованию форм, помогает обобщать знания на новые условия».

Это также говорит о том, что у людей такая склонность могла образоваться естественным путём, поскольку использование форм – более надёжный способ распознавать то, что мы видим, в новых или зашумлённых условиях. Люди живут в трёхмерном мире, где объекты видно со многих углов при множестве разных условий, и где другие наши чувства, например, осязание, могут по необходимости дополнять распознавание объектов. Поэтому для нашего зрения имеет смысл ставить форму в приоритет текстурам. Кроме того, некоторые психологи продемонстрировали связь между языком, обучением и склонностью к использованию форм: когда детей учили обращать больше внимания на формы при изучении определённых категорий слов, позже они смогли выработать гораздо более объёмные словарные запасы существительных, чем другие.

Эта работа служит напоминанием того, что «данные сильнее влияют на предубеждение и отклонения моделей, чем нам казалось», сказал Вичман. С этой проблемой исследователи столкнулись не в первый раз: уже было показано, что программы распознавания лиц, автоматический поиск резюме и другие нейросети придают слишком много значения неожиданным признакам из-за предубеждений, глубоко укоренившихся в данных, на основе которых они обучаются. Устранение нежелательных предубеждений из процесса принятия решений оказалось трудной задачей, но Вичман сказал, что новая работа демонстрирует, что это в принципе возможно, и его это обнадёживает.

Тем не менее, даже модели Гейроса, фокусирующиеся на формах, можно обмануть, добавив в изображения слишком много шума, или сменив определённые пиксели, что говорит о том, что им ещё предстоит долгий путь до качества, сравнимого с человеческим зрением. В том же ключе в новой работе Розенфельда, Цоцоса и Маркуса Солбаха, аспиранта из лаборатории Цоцоса, демонстрируется, что алгоритмы машинного обучения не способны улавливать схожесть разных изображений так, как это делают люди. И всё же подобные работы «помогают точно указать, в каких именно аспектах эти модели пока не воспроизводят важные аспекты деятельности человеческого мозга», сказал Кригескорте. А Вичман сказал, что «в некоторых случаях, возможно, важнее изучить набор данных».

Санья Фидлер, специалист по информатике из университета Торонто, не принимавшая участия в исследовании, соглашается. «Это наша задача – разрабатывать хитроумные данные», — сказала она. Она с коллегами изучает, как вспомогательные задачи могут помочь нейросетям улучшить качество выполнения основных задач. Вдохновившись открытиями Гейроса, они недавно обучили алгоритм классификации изображений не только распознавать сами объекты, но и определять, какие пиксели относятся к их контурам. И сеть автоматически стала лучше распознавать объекты. «Если вам дают только одну задачу, то в итоге вырабатывается выборочное внимание и слепоту по отношению ко множеству других вещей, — сказал Фидлер. – Если я дам вам несколько задач, вы узнаете о разных вещах, и этого уже может не произойти. Так же и с этими алгоритмами». Решение различных задач помогает им «выработать склонность к различной информации», что похоже на то, что случилось в эксперименте Гейроса с формами и текстурами.

Всё эти исследования «очень интересный шаг к углублению нашего понимания происходящего при глубинном обучении, и, возможно, он поможет нам преодолеть те ограничения, которые нам встречаются, — сказал Дитрих. – Вот поэтому я и обожаю эту серию работ».