Как работает перспектива в изображениях? / Habr

«Линза доминировала уже шесть сотен лет и я считаю, что изображениям пора отходить от неё. Если это произойдёт, может случиться что-то чудесное». — Дэвид Хокни, 2022 год

У вас когда-нибудь было такое: вы фотографируете какую-то далёкую сцену, а на фото она выглядит слишком маленькой по сравнению с её окружениями?

Комикс Мег Адамс

В этом посте мы поговорим о том, как возникает это явление, и что мы с ним можем сделать.

Я всегда считал, что линейная перспектива — это правильный способ реализации перспективы. На курсах изобразительного искусства меня научили двухточечной и трёхточечной перспективе, а также рассказали об их развитии в эпоху Возрождения; на курсах компьютерной графики я узнал о модели камеры-обскуры и о том, как потребительские камеры обычно используют объективы для аппроксимации камер-обскур. Эти методы построения линейной перспективы должны сделать картинку такой, как будто мы смотрим на неё через окно. Если расположить один глаз в одной конкретной точке перед изображениями, то это будет походить на взгляд через окно, по крайней мере, с точки зрения геометрии сцены.

Часто в культуре изобразительного искусства и компьютерной графики художники делают нечто, отличающееся от строгого следования правилам линейной перспективы, создают «отклонения от стандартной перспективы». Нелинейные перспективы, использующие другие правила проецирования 3D-фигур в 2D считаются художественным выбором, формой творческого самовыражения, а линейная перспектива отражает «объективную» реальность. Фотография создаёт убедительные иллюзии; люди говорят, что фотография фиксирует реальность.

Создание собственных картин привело меня к пониманию того, насколько ошибочны эти воззрения. Нет такого понятия, как правильная перспектива; все варианты перспективы имеют свои преимущества и недостатки. Невозможно точно отобразить всё из 3D-пространства на 2D-изображении, поэтому художникам нужно делать выбор, и линейная перспектива — лишь один из вариантов.

Я начал сомневаться в перспективе, сравнивая мои картины с фотографиями, сделанными в то же время. это сравнение часто меня удивляло.

Например, вот картина, которую я набросал зимним днём в Сиэтле:

Я думал, что это довольно неплохой рисунок моста «Аврора». В то же время я сделал быстрый снимок, чтобы иметь его при себе на случай, если я захочу продолжить работу над картиной. Позже, когда я посмотрел на фото, формы выглядели сильно иначе:

И здание на переднем плане, и дальняя опора моста казались куда больше на моём рисунке, чем они были на фото, а многие другие объекты потерялись на рисунке.

Первым делом я раскритиковал рисунок. Я нарисовал мост недостаточно длинным или не нарисовал все детали канала.

Но потом я также заметил, что камера склонна делать удалённые объекты слишком мелкими. В поездке с другом в город Эстергом я восхитился огромной церковью на холме, высившейся над нами. Тем не менее, сделанное мной фото выглядело так:

Позже я нарисовал по фотографии рисунок, лучше отразивший мои воспоминания о том, насколько была велика эта церковь:

Заметив однажды этот эффект, я вижу его теперь каждый раз, когда делаю широкоугольный снимок объёмного пространства: на фото далёкие объекты выглядят слишком мелким по сравнению с тем, какими они выглядели в реальной жизни. На моих рисунках эти объекты оказывались гораздо больше.

Вы можете проверить это самостоятельно. Находясь в большом открытом пространстве, посмотрите, допустим, на большое здание в отдалении, и сделайте снимок, охватывающий всю сцену: не только здание, но и улицы рядом с вами. Выглядит ли здание на фото таким же большим, как и в реальной жизни? Вероятнее всего, здание выглядит как небольшая часть фотографии, а не возвышается над окружающими его объектами. Разумеется, здание можно увеличить, но тогда у вас будет только фотография этого здания, а не окружающего его мира.

Для меня удивительно то, что после того, как сделал снимок, я инстинктивно принимаю фото как объективную реальность. В случае несоответствия между фото и моим рисунком я считаю, что ошибочен рисунок. И только если я нахожусь в самом пространстве физически, сравнивая фото и реальную жизнь я вижу, насколько фото отличается от реальности.

Кстати, существует много теорий о том, почему Луна выглядит такой маленькой, когда её снимают: например, преломление в атмосфере, но в случае фотографий я думаю, что это ещё один пример того же эффекта: в линейной перспективе далёкие объекты, на которых мы фокусируемся, выглядят слишком маленькими, а большинство наших повседневных фотографий основывается на линейной перспективе.

Естественная перспектива

Замечали ли это явление другие люди? Я помню, что Роб Пепперелл упоминал что-то подобное при нашей встрече в этом году. В его статьях описывается именно то явление, свидетелем которого я стал.

Вот картина, которую он нарисовал, чтобы запечатлеть ощущения от взгляда на мир в определённом месте, когда один глаз фиксирован в единственном направлении:

«Self View With Feet After Mach», Роб Пепперелл, 2013 год

Здесь в первую очередь нужно заметить то, что объекты в центре изображения выглядят самыми большими. При взгляде на объект кажется, что он доминирует в восприятии человека и почему-то кажется самым крупным.

(Источником вдохновения для Роба стал похожий рисунок философа 19-го века Эрнста Маха.)

А теперь сравните картину с двумя фотографиями, сделанными Робом: на одной увеличенное изображение его ног, на другой — широкоугольный снимок. На фото с зумом нет визуального контекста по сторонам, а на широкоугольном кадре его ноги гораздо меньше:

Похоже, здесь есть какой-то парадокс. С одной стороны, мы не воспринимаем объект в центре нашего поля зрения физически крупнее, чем когда он находится в периферическом зрении. Однако на рисунке он почему-то должен быть крупнее, чем окружающие его объекты. Можно предположить, что это связано с тем, что в центре зрения у нас гораздо больше визуальных рецепторов. Как будто мы видим гораздо больше деталей в центре зрения, поэтому ожидаем, что это передаст и изображение.

В своих последующих статьях Роб и его коллеги показали, насколько распространено подобное расширение. Например, вот картина «High Street, Oxford», Тёрнера и фотография с того же места, сделанная 200 лет спустя:

Картина Джозефа Тёрнера «High Street, Oxford», 1810 год и фотография Хай-стрит Дэвида Фишера, 2015 год

Обратите внимание, насколько крупнее башни выглядят на картине. (Фото подвергли цифровой обработке, чтобы башня Карфакс была видима на расстоянии.)

Роб и его коллега Алистер Бёрли разработали методику, симулирующую это расширение, назвав её «естественной перспективой». Мне кажется, естественная перспектива может лучше передавать то, что мы ощущаем в сцене, если смотрим в её центр. Они развили эту методику в виде 3D-рендерера.

Однако естественная перспектива не является «правильной» перспективой. Как и все остальные системы перспективы, она имеет свои достоинства и недостатки. В частности, изображение выглядит искажённым: линии, которые должны быть прямыми, искривлены, а в линейной перспективе прямые линии сохраняются.

Что если истинной перспективы не существует?

Однако по-настоящему изменило моё понимание перспективы статья «On Right and Wrong Drawings», первым автором которой указан Ян Кендеринк. Как и в случае со многими другими статьями Кендеринка, сначала она показалась мне сбивающей с толку, но когда я вернулся к ней позже, она открыла мне глаза.

В этой статье говорится, что художники почти никогда не используют «правильную» линейную перспективу, и используются примеры из предыдущих статей Роба: «первоначальный энтузиазм среди итальянских художников пятнадцатого века, вызванный опубликованными недавно методиками, ослабился после осознания того, что для устранения визуальных странностей требуются ситуативные изменения». В ней упоминаются мастера 19-го века Тёрнер и Констебл, которые были знатоками перспективы (Тёрнер даже её преподавал), однако ни один из них не следовал линейной перспективе в своих пейзажах, а Тёрнер подробно рассказывал о проблемах линейной перспективы.

За долгую историю изобразительных искусств художники разработали широкий круг подходов к перспективе, от ортографических проекций в древних гобеленах и иероглифах до прерывистой перспективы в некоторых китайских картинах на свитках и более свободных перспектив в современном искусстве; их активным сторонником является Хокни.

Во-вторых, авторы статьи указывают на то, что зрители почти всегда рассматривают картины с «неправильной» точки. Фундаментом линейной перспективы является мысль о том, что зритель должен находиться в фокусом центре изображения, чтобы видеть его правильно. Если смотреть на изображение с линейной перспективой из фокусного центра, это будет похоже на взгляд в окно — Леонардо да Винчи писал, что изображения с линейной перспективой нужно рассматривать только из фокусного центра. Однако в реальности мы этого не делаем. Большинство создаваемых нами фотографий должно рассматриваться одним глазом с расстояния в несколько сантиметров от страницы. Люди в художественных галереях ходят и рассматривают картины под всевозможными углами. (Многие исследователи субъективного восприятия утверждали, что зрители мысленно вносят коррективы при просмотре фотографии из «неверной» позиции, но я не нашёл достаточно убедительных доказательств этого, так что не буду углубляться.)

Наконец, Кендеринк указал на то, что выбор проекции заключается в выборе из множества различных задач и ограничений. В статье обсуждаются параметрические альтернативы, в основном стереографическая проекция Гельмгольца; на мой взгляд, это самое слабое место статьи, потому что авторы, очевидно, были незнакомы с более глубокими исследованиями этой темы в сфере компьютерной графики и компьютерного зрения, о которых я расскажу в конце этого поста.

Но есть определённые правила

Существует множество способов создания изображений, и ни один из них не является единственно «правильным».

Тем не менее, мы всё равно чувствительны к тому, как работает перспектива. Например, посмотрите, как в начале 2020 года использовалась съёмка телевиком, чтобы создать впечатление, что открытые пространства переполнены и люди не соблюдают социальную дистанцию.

На самом деле, проницательная статья Купера и с соавторами показала, что при отсутствии других подсказок мы склонны интерпретировать фотографии так, как будто смотрим на них с правильного фокусного расстояния. Из-за этого фотографии, сделанные с чрезмерными фокусными расстояниями, выглядят искажёнными:

Вот серия снимков одного человека, сделанная одновременно с увеличением фокусного расстояния и отдалением от него:

Фотографии одного человека с разными фокусными расстояниями из статьи Cooper et al.

Если вы не знаете этого человека, то на фотографиях он выглядит как четыре разных человека. Портрет, сделанный с «правильным» фокусным расстоянием обычно выглядит наиболее привлекательным. Одно из исследований показало, что эти различия влияют на то, как зрители воспринимают личность фотографируемого человека: лица, сфотографированные с ближнего расстояния, кажутся более «доброжелательными», сделанные на большем расстоянии кажутся более «впечатляющими», а сделанные со среднего расстояния кажутся более привлекательными.

Существуют программные алгоритмы, специально разработанные для коррекции селфи с этой целью.

Эти наблюдения означают, что перспектива не полностью произвольна и не имеет правил. Художники могут рисовать что угодно, но разные рисунки создают разное впечатление, а некоторые рисунки могут сильно сбивать с толку. Выбор перспективы — это компромисс: например, между желанием сфокусироваться на некоторых объектах по сравнению с другими и задачей сохранения прямых линий.

Вычислительная фотография для нелинейной перспективы

Вдохновлённые различными видами систем перспектив в искусстве, исследователи компьютерной графики и зрения разработали множество видов нелинейных перспектив. Для меня новаторской (хоть и не первой) статьёй в этой области стала статья Роба Кэрролла и других авторов. В этой статье приводится два важных тезиса. Во-первых, нам не нужно искать единую параметрическую проекцию, как это делали предыдущие авторы, а воспринимать перспективу как искажение изображения. Во-вторых, поскольку при выборе перспективной проекции приходится искать компромисс между несовместимыми задачами, искажение можно сформулировать как нелинейную оптимизацию. Вот пример, демонстрирующий разные широкоугольные проекции одной комнаты:

Различные проекции одной сцены из статьи Carroll et al.

Обратите внимание, насколько искажена широкоугольная линейная перспектива (верхнее левое изображение). Стереографическое изображение и изображение в проекции Меркатора не сохраняют прямые линии, а в методике Кэрролла нет ни той, ни другой проблемы. Более новый метод в некоторых случаях автоматизирует решение этих проблем.

Во многих других чудесных статьях предлагаются различные виды нелинейных перспектив, вдохновлённые художниками, в том числе методики, вдохновлённые портретами Возрождения в полный рост, кубизмом, де Кирико, «соединениями» Дэвида Хокни и многими другими. А у многих вычислительных методик нет традиционных аналогов:

Циклографические изображения Зейтца и Кима

Как сделать отдалённые объекты большими, как на моём рисунке моста «Аврора»? Один из способов, решающих эту задачу — Computational Zoom:

Computational Zoom имеет недостаток: необходимо сделать множество фотографий и разных точек, и в это время объект должен стоять неподвижно.

В новой статье, первым автором которой является Шон Лю, мы совместно с Манишем Агравала, Стивом Диверди разработали методику под названием ZoomShop, работающую по одной фотографии:

Картина в целом

Фотография не всевидяща в смысле того, что видит глаз. Наше бинокулярное зрение является состоянием непрерывной переменчивости, а камера фиксирует навсегда … единственное, изолированное состояние момента. Кроме того, мы используем объективы разного фокусного расстояния, чтобы намеренно преувеличить видимое, и мы часто «избыточно корректируем» цвет по той же самой причине. При печати мы сохраняем наше преднамеренное искажение факта … — Эдвард Вестон, 1932 год.

Теории восприятия и фотографии часто склонны к подходу «всё или ничего». Или линейная перспектива и камера верны, и камеры не лгут. Или объективной реальности нет и всё придумано. Очевидно, что реальность гораздо сложнее. В наших художественных работах используются всевозможные сложные нелинейные структуры, и наш мозг способен понять и интерпретировать их. Ещё сильнее запутывает то, что, по некоторым свидетельствам, люди с сильно отличающимся культурным наследием могут иметь в некоторых случаях очень разное восприятие перспективы. Понимание того, как и почему перспектива работает — это сложная задача (над которой как раз тружусь я), как и разработка нового ПО, позволяющего изображениям легко передавать то, что мы хотим передать.