PatientZero Sep 24 2023 at 12:45

Почему распознавание краёв не объясняет линейного рисунка

Easy

10 min

5.3K

Image processing*Graphic design*

Review

Translation

Original author: Aaron Hertzmann

Почему люди понимают линейные рисунки? Почему мы мгновенно узнаём объекты на линейных рисунках, хотя они не относятся к явлениям естественного мира? Многие исследования показывают, что люди, никогда ранее не видевшие такие изображения, могут их понимать; нам не нужно этому учиться.

Классический ответ на этот вопрос — та гипотеза, которую я буду называть Lines-As-Edges. Она гласит, что рисунки симулируют естественные образы, потому что признаки линий активируют рецепторы краёв в зрительной системе человека. Насколько я могу судить, такое убеждение широко распространено в среде исследователей зрения; многие люди вспоминают эту гипотезу, когда я говорю о восприятии рисунков, а также многие комментаторы под недавним постом в Twitter. Обобщением этой идеи становится то, что линии соответствуют некому внутреннему представлению, заставляющему нейроны реагировать на контуры объектов. Я называю эту гипотезу Line-As-Internal-Representation и расскажу о ней в этой статье.

В этом посте я хочу объяснить, почему скептически отношусь к гипотезе Lines-As-Edges. Многие исследователи зрения и пользователи Twitter воспринимают гипотезу с некритичной уверенностью, как будто эта задача уже решена, и мне сложно убедить их в обратном. Гипотеза даёт ощущение не подвергаемой сомнению истины: все знают, что это правда, и никто не видит причин подвергать её проверкам.

Я не утверждаю, что Lines-As-Edges ложна, но заявляю, что она слишком не завершена. В недавней статье (препринт) я предложил совершенно иное объяснение линейного рисунка. Моё объяснение тоже неполно, но, как мне кажется, оно имеет потенциальные преимущества. К тому же она совместима с Lines-As-Edges, так что верными могут быть они обе.

В чём заключается гипотеза?

Чтобы обсуждать гипотезу, нам сначала нужно чётко сформулировать, о чём же она гласит. Однако несмотря на такую большую популярность, её формулировку найти очень сложно. Хотя идея «витала в воздухе» десятки лет, единственную реальную формулировку Lines-As-Edges я нашёл в статье Sayim and Cavanagh (2011 год), но даже они указывают на большие пробелы в теории.

Идея возникла из двух привлекательных наблюдений. Первое: благодаря передовым экспериментам Хьюбела и Визеля 50-х и 60-х мы знаем, что зрительная кора головного мозга содержит клетки, отвечающие за распознавание паттернов краёв. Одним из первых действий, происходящих с сигналом от сетчаток, становится распознавание краёв. Второе: если подвергнуть реальное изображение обработке алгоритмом обнаружения краёв, а затем задать пороговые значения для ответов, то часто можно получить нечто, напоминающее линейный рисунок. Вот один из примеров разности гауссиан из статьи XDoG:

Difference-of-Gaussian filter — Фильтр разницы гауссиан

Самая простая формулировка гипотезы звучит так: линии на линейном рисунке рисуются как края естественного образа, для которых срабатывают рецепторы краёв. Эти линии активируют те же клетки рецепторов краёв, что и естественный образ. Следовательно, линейный рисунок вызывает реакцию коры головного мозга, очень схожую с реакцией на естественный образ, поэтому мы воспринимаем рисунок и фотографию примерно одинаково.

Проблема 1: как насчёт всех остальных признаков?

Основная проблема Lines-As-Edges заключается в том, что зрительная система человека не ограничивается распознаванием краёв. Мы видим цвета и абсолютную яркость. Мы можем увидеть разницу между тонкой чёрной линией и силуэтом тёмного объекта на светлом фоне; в первичной зрительной коре у нас есть оба вида рецепторов, а также множество других. Однако гипотеза Lines-As-Edge предполагает, что зрительная система отбрасывает всю остальную информацию на изображении лишь в этом конкретном случае. Почему?

Отбрасывание одних признаков, но не других кажется произвольным. Да, мы можем отбросить какую-то другую коллекцию признаков и получить из них какие-то другие правдоподобные интерпретации образов, но я ни разу не видел обоснованных ответов на этот вопрос и даже конкретных попыток ответить на него.

Проблема 2: мы не можем видеть внутренние представления

Немного отличающаяся формулировка гипотезы заключается в том, что я называю Lines-As-Internal-Representations. Смысл в том, что у нас есть нейроны, активируемые для контуров объектов и похожих элементов, и что линейные рисунки напрямую активируют эти нейроны. Lines-As-Edges — это особый случай данной гипотезы.

Но я вообще не понимаю этого утверждения. Нельзя просто показать визуализацию какой-то произвольной активации нейронов в мозге и ожидать, что эти нейроны сработают.

Допустим, у нас есть алгоритм, вычисляющий y=f(x), и в вычислениях используется следующая промежуточная переменная: w=g(x); y=h(w), такая, что f(x)=h(g(x)). Нельзя ожидать, что получится такой же результат, если мы выполним w=g(x); y=f(w). Типы могут даже не совпадать. С точки зрения нейронных сетей, эта теория, похоже, предполагает, что можно получить результат работы фильтра i из слоя сети j и напрямую подать в качестве входных данных в сеть. Как это вообще должно работать?

Проблема 3: в чём выгода?

Чтобы по-настоящему понять зрение, нужно рассматривать нечто большее, чем просто зрительную кору. Если бы человеческое зрение заключалось только в распознавании краёв, то мы бы уже давно разобрались, как оно работает. Разбираться в зрении, изучая только нейроны — это как разбираться в работе компьютерной программы, изучая только скомпилированные машинные команды, не рассуждая, для чего нужна программа.

Зрительная система человека чрезвычайно надёжно справляется со своей работой: она помогает нам перемещаться и выживать в мире, передавая высококачественные выводы о том, что мы видим. Этот процесс чрезвычайно надёжен при работе со всевозможными ошибочными и шумными источниками информации. Любые объяснения того, как его можно обмануть, приведя к неточному восприятию, требует убедительного объяснения в рамках целей зрительной системы. Например, иллюзия тени Адельсона показывает, что зрительной системе гораздо важнее определение отражения, чем входящего излучения. В большинстве визуальных иллюзий используются индуктивные отклонения зрительной системы: эти отклонения в обычных ситуациях полезны, несмотря на то, что создают неожиданные результаты в случаях, которые не были особо важны для наших предков из плейстоцена. Вероятно, им не требовалось осознанно рассуждать об относительном излучении.

Lines-as-edges постулирует огромный «изъян» визуальных выводов — галлюцинации о формах, которых нет, при этом не описывая соответствующего выгодного для зрения индуктивного отклонения. На самом деле мы не верим в присутствие изображения из-за дихромности изображений, но по этой гипотезе вывод формы всё равно ужасно ошибочен.

Проблема 4: визуальное искусство — это не только линейные рисунки

Допустим, мы добавим линейному рисунку цвета:

Теперь у нас есть ощущение цвета объекта, а не только его контуров. Как обобщить Lines-As-Edges, чтобы учесть эти отличающиеся виды отображения? Зрительная система больше не игнорирует всё, кроме некоторых градиентов; теперь она уделяет внимание некоторым цветам (но не другим).

Или, допустим, мы добавим штрихование:

Как теперь Lines-As-Edges объяснит наше восприятие этого стиля?

Художники изображают объекты при помощи практически бесконечного сочетания контуров, цветов, штриховки, пунктиров, раскрашивания и многого другого. Чтобы учесть это, гипотеза Lines-As-Edge должна предположить, что зрительная система каким-то образом распознаёт каждый стиль и определяет, какие признаки игнорировать, а какие оставить. В каком-то смысле это может быть верно, но очевидно, что Lines-As-Edges отвечает далеко не на все вопросы.

Или же может быть так, что неподготовленные наблюдатели не могут понимать эти рисунки; я не знаю ни о каких исследованиях этой темы, но считаю это маловероятным, потому что исследования уже показали, что неподготовленные наблюдатели могут понимать линейные рисунки и фотографии.

Проблема 5: распознавание краёв — это не алгоритм линейного рисунка

Lines-As-Edges начинается с наблюдения, что распознавание краёв может создавать линейные рисунки. Но на самом деле это не так, часто такого не случается. Вот два примера из статьи Sayim и Cavanagh:

Тем не менее, я считаю, что Lines-As-Edges можно модифицировать, чтобы учесть это, объединив мысли из Judd et al. (2007 год) и моей статьи. Модифицированная гипотеза выглядела бы так: зрительная система интерпретирует линейные рисунки, как будто они являются изображениями краёв матового белого объекта при освещении фарами или усреднёнными в интервале схожего освещения. Насколько я знаю, эта модифицированная гипотеза нова; крайне близкие к ней допущения излагаются только в статье Judd et al. Однако эта модификация не решает перечисленные выше проблемы.

Альтернативы

Я считаю, что моя гипотеза позволяет рассуждать об этом иначе, без возникновения описанных выше проблем. Эта гипотеза совместима с Lines-As-Edges и при этом отвечает на множество заданных здесь вопросов. В ней есть свои пробелы, но, как мне кажется, она станет многообещающим способом двигаться в сторону решения этих вопросов.

Очевидные выступы, края и восприятие линейного рисунка

Есть два наиболее убедительных алгоритма, описывающие способ создания линейных рисунков 3D-моделей: это Suggestive Contours и Apparent Ridges. В недавней статье я привёл объяснение человеческого восприятия с точки зрения Suggestive Contours. Однако в самом лучшем количественном исследовании того, где люди рисуют линии, Apparent Ridges получил более высокие оценки.

В этой части мы попытаемся решить это очевидное противоречие и объяснить роль каждого из алгоритмов в понимании линейного рисунка. При подготовке статьи я много думал об этом, но решил не приводить эти рассуждения ради краткости.

Каковы модели?

Алгоритм Suggestive Contours рисует линии в тёмных «долинах» рендера изображения. Алгоритм Apparent Ridges рисует линии на больших градиентах рендера. Оба алгоритма в разных случаях создают высококачественные линейные рисунки; опубликовано множество различных вариантов этих алгоритмов.

Я не буду вдаваться в подробности работы эти алгоритмов. Нетехническое введение в алгоритмы линейного рисунка можно найти здесь. Для более подробного изучения рекомендую очень хорошо написанные оригиналы статей, а также методику Lee et al.; исчерпывающий анализ этого алгоритма см. в исследовании DeCarlo. Кроме того, в 1985 году Pearson и Robinson, по сути, предложили идею Suggestive Contours, но не разработали алгоритмы для 3D-моделей.

Что гласят исследования?

Во-первых, что гласят количественные оценки?

Мне известно три релевантных в данном случае исследования; каждое из них оценивает что-то своё. В первом Cole et al спросили живых художников, как создавать линейные рисунки из 3D-моделей. Авторы обнаружили, что наилучшими предикторами рукописных линий стали методы, связанные с краями изображений и градиентами, в том числе и Apparent Ridges. Однако с некоторыми фигурами Suggestive Contours справлялся лучше. В отдельном исследовании того, как люди воспринимают фигуры на рисунках, Cole et al. выяснили, что люди воспринимают фигуры Suggestive Contours и Apparent Ridges с приблизительно эквивалентный точностью (см. Таблицу 1 в их статье). Apparent Ridges немного лучше справлялся с моделями, имеющими много сгибов (особенно выпуклостей), а Suggestive Contours немного лучше справлялся с некоторыми другими моделями. В нашей статье Neural Contours мы тоже выяснили, что края изображений и Apparent Ridges лучше всего соответствовали мнению людей о красоте линейных рисунков.

Как бы ни были полезны эти исследования (особенно важны и значимы два, проведённые Cole), существует множество причин, чтобы подвергнуть сомнению любые конкретные выводы об AR и SC. В этих исследованиях обычно сравнивают такие кривые по отдельности, однако оценки получаются лучше, если объединить разные типы кривых. Кроме того, я думаю, что оценка этих методик немного ненадёжна для механических объектов со сгибами. Думаю, одна из причин более высоких оценок Apparent Ridges заключается в том, что он, по сути абсорбирует сгибы, а Suggestive Contours должен комбинироваться со сгибами, а комбинирование множества формулировок кривых вызывает проблемы, современными алгоритмами пока не решённые. С другой стороны, Apparent Ridges (в своей нынешней формулировке) не может создавать пересечений, то есть мест соединения трёх сгибов, а подобные случаи не сильно уменьшают оценку в современных метриках. Кроме того, каждое из этих исследований — это просто отдельный процесс с конкретной структурой тестов и выборкой.

Если вкратце, есть случаи, когда Apparent Ridges получает в некоторых задачах более высокие оценки, но чёткого «победителя» или ответа о том, какой метод «лучше», нет. Требуются дополнительные исследований для совершенствования и расширения этих алгоритмов, и, возможно, разработка более точных с точки зрения восприятия метрик для их оценки.

Apparent Ridges в гипотезе реализма

Apparent Ridges основан на идее о том, что линейные рисунки повторяют градиенты изображений, но я не считаю, что это хорошее объяснение восприятия.

Как я примиряю свою гипотезу о том, что Suggestive Contours объясняют восприятие линейного рисунка с тем фактом, что оценки Apparent Ridges, как минимум, сравнимы?

Основная идея заключается в том, что в моей гипотезе хотя наблюдатель воспринимает линии, как будто они являются Suggestive Contours, «наилучший» линейный рисунок объекта — это не рисунок Suggestive Contours. (В данных рассуждениях мы рассматриваем гладкие поверхности и то, что затеняющие контуры всегда отрисовываются.)

Рассмотрим этот пример «изгиба носа» (отрендеренный Pierre Bénard при помощи qrtsc):

Это схоже с Рисунками 3 и 9 в статье о Apparent Ridges; на Рисунке 3 авторы показывают графику, в которой используются схожие сгибы.

Я интерпретирую эту линию как преувеличивающую кривизну носа, чтобы показать, что он не плоский. Линия указывает на наклонную поверхность; она указывает на Suggestive Contour, которого «на самом деле нет». По моей гипотезе это значит, что я воспринимаю 3D-поверхность, которая более наклонена, чем реальная поверхность. В то же время, эта линия на рендере Suggestive Contour отсутствует; однако это заставляет наблюдателя воспринимать поверхность как более плоскую. Если чрезмерно наклонная поверхность является более хорошим воссозданием, чем чрезмерно уплощённая поверхность, то имеет смысл рисовать эту дополнительную кривую.

Если изложить это более формально, предположим, что зрительная система должна воссоздать 3D-фигуру, соответствующую модели Suggestive Contour: каждая линия должна быть или затеняющим контуром, или суггестивным, и зрительная система воссоздаёт наиболее вероятную фигуру, соответствующую этим ограничениям (возможно, с какой-то долей неопределённости восприятия). Если задача художника заключается в минимизации расстояния между воспринимаемой фигурой и задуманной, то он рисует линии, «которых нет», чтобы обозначить более высокий наклон поверхности, который в противном случае мог бы восприниматься как более фронтально-параллельный.

Переформулируем это как конкретный прогноз: допустим, вы выполнили алгоритм определения фигуры, который воссоздаёт из набросков 3D-фигуру при помощи допущения Occluding Contour + Suggestive Contour (с обработкой сгибов). Тогда я предположу, что этот алгоритм создаст приблизительно эквивалентные рендеринги каждого из этих различных линейных рисунков, и что рисунок, приводящий к наилучшему воссозданию формы (то есть с наименьшей погрешностью воссоздания) часто не будет рендерингом Suggestive Contour. Эту гипотезу можно проверить при помощи уже имеющихся у нас алгоритмов.

Объяснения дисперсии и lines-as-edges

Можно сделать множество различных рисунков, приводящих примерно к одному восприятию. Вот график дисперсии в сделанных людьми рисунках из Cole et al 2008:

Заметьте, что все, по сути, рисуют затеняющие контуры, но внутренние кривые рисуются по-разному. Это может отражать различия в навыках и стилях художников, но также может отражать и то, что разные кривые могут обеспечивать приблизительно одинаковое восприятие форм.

Это позволяет объяснить, почему линейные рисунки так часто совпадают с краями изображений. В гипотезе реализма (Realism Hypothesis) линейный рисунок концептуально можно смоделировать как процесс создания «виртуальной 3D-сцены» с освещением, затенением и 3D-формой, с последующим рисованием линий, соответствующих этому рендерингу. Так как художник имеет широкий выбор установки этого «виртуального рендерера» при отображении объекта, он может выбрать виртуальное освещение и изменённую 3D-форму, приводящие к созданию множества линий, по большей мере совпадающих с краями реалистичного рендеринга. Даже если края изображений не объясняют восприятия человеком линейного рисунка, они часто могут быть наилучшими местами для рисования линий.

Hubs:

If this publication inspired you and you want to support the author, do not hesitate to click on the button