В нашей лаборатории еще 10 лет назад было 5 автостереоскопических мониторов разных производителей. Тогда довольно убогие, мы из них максимум выжимали. Сейчас они становятся все лучше, но вопрос контента и формата открыт. Google Deep View и предложенный ими формат выглядели очень неплохо 4 года назад как прототип, они работу продолжают.
Но можно считать, что все это никогда не разовьется и кино навсегда останется черно-белым, ведь это было предыдущие много десятков лет. )))
А я пошел разработчикам ThinkVision 27 3D ответ писать, на прошлой неделе они на нас вышли)
Вообще шансы на следующий прорыв в этой области от китайцев (не одних, так других) на мой вкус очень велик.
Могу лишь добавить, что большинство людей, к сожалению, вообще ровно относится к объему.
Ну как сказать... Есть исследования, людям показывали большее разрешение, большую глубину цвета, больший FPS и 3D. И единственное, что вызывает (при правильной съемке, конечно) вау-эффект — это 3D.
Ну а производителям нужно что-то увеличивать, чтобы люди покупали)
Другое дело, что с 3D до сих пор масса проблем технического и алгоритмического плана не решены.
Некоторые из них его как-будто не ощущают в принципе, другие ощущают, понимают, но после 1 минуты просмотра снимают очки и смотрят без них.
И другие части на хабре можете почитать. Это цикл из 8 статей, причем задумано было 12 (они посвящены нашим 18 метрикам качества стерео, направленным на измерение разных артефактов, порождаемых разными причинами и от каждого из которых может болеть голова). Более профессиональные наши отчеты и публикации по теме можно найти тут: https://videoprocessing.ai/stereo_quality/
То есть, многим людям это в принципе не нужно, достаточно 2D картинки.
На протяжении более полувека людям в принципе было не нужно цветное кино, и было вполне достаточно черно-белого. А до этого не нужно было кино звуковое, достаточно было просто картинки. «Кто, черт возьми, захочет слышать, как актеры говорят?», — говорил про звуковое кино Гарри Ворнер, основавший Warner Brothers в 1927, один из лучших экспертов по кино того времени. Уверен, большинство современных хейтеров 3D с ним согласятся и отключат звук при просмотре фильмов. Переход в 3D это вопрос решения довольно большого числа задач. БОльшего, чем при переходе от чб к цвету. Но решаемого. Причем в ближайший десяток лет (любимыми нейросетями))) с очень большой вероятностью.
Получаемое качество вполне приличное (для домашнего просмотра)
...
Да и не понятно, нужно ли это для домашнего применения.
Мы довольно много издевались над людьми показывали людям разное плохое стерео (в том числе сделанное плохим искусственно), чтобы измерить чувствительность к разного рода артефактам (12 отчетов с десятками проблем и 20 публикаций доступны тут https://videoprocessing.ai/stereo_quality/)
Ключевой вывод в коррекцию вашей позиции: Это НЕ ВАЖНО просмотр домашний или нет. Важна ПЕРСОНАЛЬНАЯ ЧУВСТВИТЕЛЬНОСТЬ, которая основана на личных особенностях бинокулярного зрения.
Т.е. у вас один и тот же фильм с безумными косяками (например, минутой с лишним сцен с перепутанными ракурсами — реальный пример одного низкобюджетного фильма ужасов) может у т.н. stereo-blind людей вообще ничего не вызывать, а 10% наиболее чувствительных дарить на весь вечер незабываемую мигрень.
При этом к перепутанным ракурсам (безумный вариант вывернутой наизнанку сцены) можно привыкнуть. Были эксперименты, когда человеку надевали специальную насадку с призмами, которая "меняла глаза местами" и через некоторое время человек уже мог ориентироваться и двигаться.
Или, например, один и тот же фильм условно у бабушки может вызывать недетскую головную боль, а у внука — море восторга и ноль болевых ощущений. Более того, если внуку показывать такие "кривые" стереофильмы регулярно, его персональный "болевой порог" может достаточно сильно вырасти. В рамках страны подобный эксперимент был в Китае, где массово шли 3D релизы с косяками, неприемлемыми для европеоидов, но ширнармассы их воспринимали норм)
В общем вы можете "натренировать" себя на такое стерео и вам будет норм. А потом покажете друзьям и будет незапланированная реакция)))
TLDR -- ваш пайплайн обречен на ряд проблем с качеством. Описал почему.
Проблемы зачастую не фатальные, но неприятные.
В скобках замечу, что ровно из-за подобных проблем даже при их профессиональном решении в студиях постпродакшн многие не любят ходить на отконвертированные в 3D фильмы. У вас таких проблем будет много.
Только добрался до вашей статьи, сорри! (но спасибо за приглашение)
По пунктам.
Depth-Anything работает на удивление хорошо, но профессиональных Depth Artist он не заменит.
Его проблемы:
Нестабильность глубины во времени. При просмотре в очках это незаметно, но вообще говоря людей будет укачивать. При просмотре без очков вы можете заметить подергивания кадра.
Любые сцены, где будут полупрозрачные объекты на переднем плане (дым, туман, взрывы, стекло (витрины, шлемы и т.п.) будут отображаться некорректно (их глубину нужно специально обрабатывать). Головной боли, как в предыдущем случае, от этого, как правило, не будет (хотя найти жесткую сцену, думаю, будет можно), но это неприятно, поскольку будет смотреться странно.
Похожая проблема будет с любыми отраженными объектами (глубина в зеркалах или что хуже - отражения в пластике стен) и бликами. Они также будут в лучшем случае плоскими, в худшем жить своей жизнью.
Отдельная проблема - генерация стерео по глубине. Это на самом деле очень нетривиальный процесс и у вас будут следующие проблемы:
Во-первых, хорошо бы корректно заполнять области открытия-закрытия (я писал про это, например, тут), причем лучше из времени. В вашем покадровом пайплайне это невозможно по определению. Это приведет к эффекту т.н. "стеклянного колпака", когда зрителю будет казаться, что вокруг объектов стекло. Это происходит из-за того, что когда оклюжены заполняют из того же кадра они выглядят как преломление в стерео.
Вы выбрали примеры, где либо на заднем плане простой фон (первый и второй примеры), либо нет перепадов по глубине. На последнем примере этот эффект хорошо виден. Если будут сложные текстуры, видно будет еще лучше.
При профессиональной конвертации применяется восстановление фона (сегодня - генеративное), но это довольно дорогое удовольствие, особенно если фон динамически меняется.
Во-вторых, если экран большой и с хорошим разрешением, нужна обработка полупрозрачных границ. Ибо даже среднее движение (я уж молчу про быстрое) будет порождать размытие на краях обьектов, с которыми текущий пайплайн гарантированно будет порождать косяки. Т.е. в crazy motion сценах (какой-то экшен), у вас будет много прекрасного.
Тут в скобках замечу, что сайт https://videomatting.com/ - это внезапно наш сайт, и мы когда-то очень активно и тестировали чужие решения (в том числе только появлявшиеся тогда нейросетевые) и реализовывали свои, и делали решения для разных зарубежных компаний, в том числе и в киноиндустрии.
В этом плане совершенно не случайно на мой вкус у вас все приведенные примеры, это сцены в которых почти нет движения)))
Также замечу, что сейчас перспективно выглядят условно NERF-based подходы, которые позволяют делать стерео, лишенное описанных недостатков, но со своими другими недостатками на данный момент))) (начиная с вычислительной сложности). Тем не менее года через 3-4 пайплайн на их основе даже на опенсорсе даст результат по качеству кардинально выше вашего текущего.
Сказать еще есть что, но и так уже довольно много)
как я понимаю, вы планировали написать про проблемы конвертации 3D, но если и написали, то здесь не опубликовали. Где-то еще можно это почитать, или пока в планах?
Конвертацией мы занимались плотно, в том числе зарабатывали на снижении ее себестоимости. Но актуальность темы в плане Хабра заметно упала, а мы много чем еще занимаемся, что сегодня вполне заходит. Так что она, видимо, останется до новой волны, которая судя по выставкам точно будет, но предсказать ее точно довольно сложно.
Так что скорее что-то из актуальных на сегодня черновиков доведу. Например, из моих лекций и докладов про 4D) (это не которые в лицо брызгают, а которые - световые поля))) Тема сейчас очень активно развивается.
Желающие могут глянуть стартап Виктора Лемпицкого (многие знают его по Сколтеху и Центру ИИ Самсунга) Cinemersive Lab:
По сути они из одного фото делают 4D кадр. С видео тоже работают, но там объективно сложнее и косяки чаще. Если внимательно их демки смотреть, то там косяки и в текущем варианте есть, но учитывая что у них очень небольшая команда они "в одну кнопку" делают, что еще недавно заняло бы недели работы у студии пост-продакшн. Ну и алгоритмически это младенчество алгоритмов такого рода, конечно. Дальше будет круче!)
в зарубежных источниках VAC - vergence-accommodation conflict), который вы упомянули в комментариях к части 4, и о котором пишут не только журналисты, но и научные издания. ... Я так понял, суть VAC вы всё же знаете, просто формулировка не совсем удачная. Для других читателей данной дискуссии всё же распишу
VAC было очень сложно не знать, поскольку на него в те годы чаще всего ссылались некоторые наиболее ушлые продюсеры. С самым умным видом. Типа, это то, что мы в кинотеатре по определению пофиксить не можем. Объекты на разном расстоянии от экрана, а глазу нужно фокусироваться на экран. Вот и все, вот и неизбежный дискомфорт. Сделать ничего нельзя! [У меня лапки]
Профессиональных стереограферов такая постановка вопроса выбешивала. У тебя сцу[дорогой продюсор] 3 сцены с перепутанными ракурсами, 20 сцен с серьезным рассинхроном по времени и больше 100 сцен рассинхроном по резкости. Ты каждую минуту почти зрителя кувалдой по условному мозжечку лупишь с размаху. И ты бл[дорого человек] рассуждаешь о том, что ничем не отличаешься от лучших фильмов, поскольку якобы "ничего сделать нельзя". А c с тобой скоти[замечательный начальник] реально боролись, чтобы еще хотя бы 50 сцен поправить (что деньги и время, которых ты не давал). И некоторые пали в этой неравной борьбе (были уволены прямо в середине проекта), ибо бабло побеждает почти все в нашем прекрасном мире. И уже тем более какое-то там жалкое никому не нужно качество стерео.
Ну и если уж про науку и ваше чудное пояснение. Чтоб вы были в курсе: на Stereoscopic Displays & Applications - старейшей и крупнейшей в мире конференции по стерео, проходящей в Калифорнии зубры конференции очень любили троллить подавляющее большинство упоминавших VAC в докладах. Лично Vice Chairman конференции (офигенный чел, кстати, делавший предисловия к нашим отчетам) с ледяной вежливостью интересовался у упоминавших VAC (особенно в контексте кинотеатров): "Дорогой докладчик, а какое у вас было расстояние до экрана?" И когда называлось, например, 10 или 20 метров шел добивающий вопрос: "А на каком расстоянии от экрана VAC практически перестает влиять на дискомфорт?" Поскольку по научным замерам, дискомфорт от VAC уходит примерно в ноль (его не удается поймать даже для больших выборок участников) на расстоянии больше 2-3 метров. Несколько таких показательных порок и среди 600 сидящих в зале слушателей доклада почему-то сильно падало желание к месту и не к месту VAC упоминать.
Безусловно. Причем предыдущая крупная волна хайпа 3D фильмов в США была в 1952 году, и развивалась она по точно тем же законам. В том плане, что был хорошо сделанный удачный фильм, от которого народ пришел в восторг и дальше стали снимать больше 40 фильмов в год. С КУЧЕЙ проблем. Мы пару фильмов той поры проанализировали, там всех косяков хватало с горкой: и перепутанные ракурсы, и сдвиг во времени между ракурсами (в том числе на некратное число кадров, которое так просто не исправить!) - очень неприятная и болезненная ситуация, когда вы поднимаете руку, а в одном кадре она выше, чем в другом одновременно...., и поворот кадров, и разный масштаб кадров, и расфокус, и более тонкие косяки.
Причем многие из этих проблем, типа разного масштаба сегодня исправляются даже встроенными средствами The Foundry Nuke, но в 1952 году поправить их было крайне сложно и дорого. За что тогда люди и платили головной болью, причем более сильной, чем сейчас. Что и убило волну буквально за год.
60 лет спустя, в последнюю крупную волну было намного проще все это исправлять (хоте не все этим запаривались, мы переписывались с доброй сотней стереограферов мира, которые всеми руками поддерживали наши разработки, и рассказывали страшные истории из своей нелегкой жизни). С некоторыми встречались лично в LA. Волна продержалась дольше. При этом процесс совершенствования средств исправления косяков продолжает идти.
Посмотрел комментарии, похоже никто не заметил, что описываемая в статье картина не соответствует реальности (я про обнуление 15-20 снимаемых даже после ковида 3D фильмов и забытом "Аватаре 2").
Интересно, что это работает и в другую сторону. Сейчас очень мощно развиваются технологии показа 3D существенно более высокого качества, от которых голова будет болеть меньше. В первую очередь - лазерная проекция. В Китае производство таких проекторов развивается очень мощно. И новые залы кинотеатров часто ставятся с ними, причем поддержку 3D они получают, как опцию, по довольно съедобной цене. Как следствие, сейчас по миру залов с поддержкой 3D примерно в 6-7 раз больше, чем было в 2010 году, когда вышел первый Аватар и была очередная волна интереса к 3D (5-я, помнится). Соответственно, готовность к следующей волне заметно выше (но не у всех))). Но кто это видит кроме специалистов? Для широких народных масс появление всех этих экранов будет совершенно неожиданным.
Аналогично в производстве контента постепенно уменьшается количество ручной работы на конвертации при том же качестве. Особенно с последними результатами типа Video Depth Anything (дата релиза 22 января этого года!) и Segment Anything 2 (релиз полгода назад, по сути одна из первых фундаментальных моделей в компьютерном зрении). Это маленькая революция, которая вместе с генеративным инпаинтингом, сохраняющим когерентность в видео (еще одно по сути свежее маленькое чудо последних лет) позволяет сильно снизить стоимость конвертации. А ведь еще NeRF (Neural Radiance Fields) параллельно развиваются! Их пока довольно дорого совмещать с конвертацией (и по качеству, и по вычислительным ресурсам), но скорость их развития поражает. До продуктов все это великолепие добирается не так быстро, как хотелось бы, но добирается и свое дело делает. Толпы индусов, годами шуровавшие clean plates уже переучиваются.
Все больше рыночный потенциал у автостереоскопических дисплеев. 8К по сути мало кому нужно (хотя "все купили, и я купил" работает), а вот для автостереоскопии оно прям критично и даже мало (хотя видимые 2K в 3D без очков будут и даже чуть больше)))
Ну а дальше все будет как обычно)
Как было с СhatGPT и сотнями технологий до нее. Плавно улучшающаяся технология в какой-то момент со свистом ворвется на рынок. Совершенно и абсолютно неожиданно! ))))
А сейчас мы читаем, как все окончательно и бесповоротно умерло) И не развивается) И это лайкают)
Почитал комментарии, мне кажется раньше народ был более технически грамотным (ну и трава была зеленее, и дискеты больше)))
А вообще думаю с NERF & GS в их следующей инкарнации будет совершенно новое 4D кино (к приходу которого готовятся производители, показывая прикольные девайсы на выставках), но пока еще рано.
Это сильное упрощение) Но в итоге все уперлось в деньги. Кинотеатры экономили на оборудование, продюсоры экономили на качестве фильмов. У людей болела голова.
Я все это очень подробно описал в серии статей "Почему от 3D болит голова":
Там описана часть нашего проекта разработки метрик качества стерео. Всего было разработано 18 метрик и проанализировано под 200 фильмов (на деньги западных компаний мы купили пачку Blu-Ray дисков и прогнали их через метрики). Подробности на английском тут: https://videoprocessing.ai/stereo_quality/
Ну и не могу удержаться, сорри...
на основе которой была составлена следующая диаграмма:
По стоимости хорошая конвертация сопоставима с затратами на саму 3D‑съемку
Конечно, нет)
а это значит, что успех восприятия 3D кино в целом как отрасли кинопроизводства все больше полагался на качество постобработки, которое в некотором роде является постоянной величиной
Вы вот взяли и отменили прогресс) Качество конвертации (за счет алгоритмом обработки видео) внезапно постоянно растет, а цена падает. Мы на этом рынке вполне зарабатывали (ну и пытались его спасти, измеряя и улучшая качество).
Но если изначально снятый в 3D фильм имплицитно подразумевал хорошую, качественную 3D сцену
Вы помечтали) В кино возможно все! (во всех смыслах)
В одном фильме ужасов мы нашли полторы минуты перепутанных ракурсов (самая простая ошибка с точки зрения стоимости исправления). И ничего! Ушло в релиз) Как мы шутили - при просмотре этого ужастика, вам будет не только страшно, но и больно.
Поискал реальные характеристики - пока только реклама, очень мало данных. Неясно сколько там реальных ракурсов, неясен входной формат и т.д.
14 лет назад Samsung в "первую волну" 3D прославились тем, что одними из первых массово выпустили 3D телевизоры, но они очень торопились "поймать волну", поэтому технология была очень сырой и в 3D режиме яркость экрана падала в 7 раз + это были активные очки, поэтому условно 1/7 времени был "открыт" правый глаз, потом длинная пауза, потом 1/7 времени "открыт" левый. В итоге человек видел правую и левую картинку с заметной разницей во времени, что порождало дискомфорт. Вдобавок они во всех рекламах написали, что телевизор может "автоматически конвертировать любой канал в 3D" и менеджеры продаж продавали его в магазинах под этим соусом (рука-лицо).
Тех пор утекло немало воды и алгоритмы автоконвертации в 3D стали заметно лучше, но до нормального результата (realtime!) там еще плыть и плыть. Зачем они опять это в рекламу опять вставляют - вопрос хороший.
Касательно разрешения и вычислительных мощностей:
У них камера отслеживает положение головы, это позволяет уменьшить количество ракурсов при нормальном качестве (правда с гарантией - только для одного человека). Это повышает видимое разрешение (+ там потери только по горизонтали, что субъективно разрешение также повышает)
А активное распространение шлемов и игр для них прокачало тему эффективной генерации 2 ракурсов на видеокартах и в играх, так что в принципе для игры там доп затраты по компьюту могут быть не столь велики.
Берется какой-то декодер, как референсный (а разные декодеры дают несколько разные выходные стримы в основном из-за оптимизаций) и можно еще наиграть степень сжатия, если обеспечивать выходной файл бит в бит по декодированному стриму (WAV), а не по MP3.
Особенно когда процессор этого ТВ физически не может родить 4К видеопоток, по этому там между ним и матрицей стоит апскейлер.
Все так.
Что за особенности такие (если это конечно не апскейлер, как выше в моем сообщении)? Картинка скейлится билинейкой или еще чем, а в частоте какая проблема - обновляй картинку по мере поступления, или переключи частоту на частоту видео, или кратную ей.
Хороший вопрос к профильным инженерам, но лично видел телевизор Sony с заявленными 200 FPS, который зачем-то пытался делать их из потока с меньшей частотой и заметно мылил картинку из-за этого (точнее там было 2 проблемы - мыло на мелких текстурах, на которых плохо ловится движение - листва, трава, мех, песок и т.п. + характерные артефакты на границе быстро движущихся объектов - которые особенно хорошо видны, когда камера следит за обьектом, он в фокусе, а фон сравнительно быстро сдвигается).
Ох и как же это бесит, особенно когда этот шарпинг нельзя отключить. Я даже встречал монитор (вроде какой-то лось) с неотключаемым шарпингом (можно было только уменьшить, но даже на минимуме все равно шарпил).
Люто плюсую!
У меня профдеформация - я просто глазами вижу косяки в видео (и на экранах) и часто понимаю, какой алгоритм их дает.
Очень частая картина - маркетинг "продает" увеличение цифр - типа 4К телевизор (конечно!) круче 2К, а 200 FPS - в два раза (не меньше!) лучше, чем 100 FPS. И пипл это хавает. А дальше начинается жесть, когда у вас характеристики матрицы таковы, что вы НЕ МОЖЕТЕ отключить алгоритмы повышения разрешения и увеличения частоты - они у вас должны быть (там есть нюансы, но в целом...). А дальше прикол, в том, что алгоритмы не могут не давать косяки в некоторых случаях. Например, преобразование частоты кадров сбоит на некоторых границах и т.п.
А еще требование бизнеса - чтобы себестоимость девайса была низкой и туда при отличной матрице ставится чип, который просто по производительности не вывозит нормальные алгоритмы. На результат я не могу смотреть без слез. Но... ЛЮДИ ЭТО ПОКУПАЮТ! Мне это непонятно, но это факт, к великому сожалению...
А увеличение резкости, кстати, прямо в кодек вставляют сейчас (причем в енкодер). Мы сейчас с одной крупной транснациональной компанией на эту тему работаем. И пока у вас картинка идет на смарфон - все норм (и даже лучше становится), но когда тот же поток идет на телевизор (особенно дешевый) - идет дикий (кровь из глаз) овершарп.
Так выглядят гримасы прогресса через призму охрененно эффективного бизнеса... (это я подбирая слова)
и кстати, Eyevinn Technology вот тут пишут, что LCEVC визуально для людей как раз хуже, чем HEVC) при одинаковых объективных метриках
то есть у них ровно противоположное мнение, чем что вы пишите
А где именно пишут, простите?)
Ну и написать такое большого ума не надо. Какие реализации LCEVC и HEVC сравниваются?
На картинке выше со штриховкой - открытые реализации (часто опенсорсные), а плотным цветом - приватные. Поскольку написание кодека - это (внезапно) довольно долгая и дорогая история, то опенсорсные реализации по качеству на приличный уровень выходят сильно не сразу.
Что, естественно, не мешает брать какой-нибудь xin26x (VVC) и радостно писать - мы тут замерили и этот ваш VVC - полное говно по сравнению с AV1 (от libaom) - дает файлы почти в 2 раза больше по размеру при том же качестве!!! (ну или мы тут HEVC (SVT-HEVC) с AVC (x264) сравнили, HEVC полной фигней оказался - всего на 2% лучше). При этом реальная картина, самую малость отличается))) Примерно полностью)
Больше профессиональных примеров метрик и сравнений в этом интервью.
и у других людей, кто профессионально занимаются решениями для стриминга, внезапно, другие субъективные оценки качества, чем у вас
Вы не поверите, но у меня основной доход (внезапно) раньше был от производителей телевизоров, а дальше - от разработчиков кодеков и решения для стриминга и видеоконференций)
Причем после выхода нашего самого известного бенчмарка метрик качества видео (датасет для которого мы собирали 5 лет), написали даже YouTube Media Algorithm Team (презрев санкции и предложив сотрудничать))). Но улучшать решения стриминга Google, Intel, NVIDIA, Huawei, ByteDance (TikTok), Alibaba, Tencent и далее по списку мы помогаем (список не полный, первым - раньше, остальным сейчас).
В общем - про другие оценки - это вы прям хорошо попали) Выше интервью, кстати, на портале StreamingMedia. Вы можете внимательно изучить их портал, у каких еще лабораторий университетов они берут интервью и вообще сколько таких в мире) Мы не единственные, конечно, кто так плотно работает с индустрией, но таких немного, скажу я вам.
На paperswithcode наши бенчмарки, внезапно, в топе в задачах Video Quality Assessment и Image Quality Assessment (что значит, что мы протестировали больше всех опенсорсных реализаций метрик). При этом у нас раскрыты (опубликованы) не все работы, часть продается компаниям. Увы, финансирование науки в России не фонтан, поэтому мы много занимаемся вещами, которые наиболее полезны компаниям, причем в первую очередь западным (последние 2 года - восточным) поскольку они платят заметно больше отечественных.
Почитайте про автостерескопический (не требующий очков) Lenovo ThinkVision 27 3D Monitor.
В нашей лаборатории еще 10 лет назад было 5 автостереоскопических мониторов разных производителей. Тогда довольно убогие, мы из них максимум выжимали. Сейчас они становятся все лучше, но вопрос контента и формата открыт. Google Deep View и предложенный ими формат выглядели очень неплохо 4 года назад как прототип, они работу продолжают.
Но можно считать, что все это никогда не разовьется
и кино навсегда останется черно-белым, ведь это было предыдущие много десятков лет. )))А я пошел разработчикам ThinkVision 27 3D ответ писать, на прошлой неделе они на нас вышли)
Вообще шансы на следующий прорыв в этой области от китайцев (не одних, так других) на мой вкус очень велик.
Ну как сказать... Есть исследования, людям показывали большее разрешение, большую глубину цвета, больший FPS и 3D. И единственное, что вызывает (при правильной съемке, конечно) вау-эффект — это 3D.
Ну а производителям нужно что-то увеличивать, чтобы люди покупали)
Другое дело, что с 3D до сих пор масса проблем технического и алгоритмического плана не решены.
См выше про stereo-blind и большой подробный текст Почему от 3D болит голова / Часть 4: Параллакс. Там про это подробно)
И другие части на хабре можете почитать. Это цикл из 8 статей, причем задумано было 12 (они посвящены нашим 18 метрикам качества стерео, направленным на измерение разных артефактов, порождаемых разными причинами и от каждого из которых может болеть голова). Более профессиональные наши отчеты и публикации по теме можно найти тут: https://videoprocessing.ai/stereo_quality/
На протяжении более полувека людям в принципе было не нужно цветное кино, и было вполне достаточно черно-белого. А до этого не нужно было кино звуковое, достаточно было просто картинки. «Кто, черт возьми, захочет слышать, как актеры говорят?», — говорил про звуковое кино Гарри Ворнер, основавший Warner Brothers в 1927, один из лучших экспертов по кино того времени. Уверен, большинство современных хейтеров 3D с ним согласятся
и отключат звук при просмотре фильмов. Переход в 3D это вопрос решения довольно большого числа задач. БОльшего, чем при переходе от чб к цвету. Но решаемого. Причем в ближайший десяток лет (любимыми нейросетями))) с очень большой вероятностью.Велкам)
Мы довольно много
издевались над людьмипоказывали людям разное плохое стерео (в том числе сделанное плохим искусственно), чтобы измерить чувствительность к разного рода артефактам (12 отчетов с десятками проблем и 20 публикаций доступны тут https://videoprocessing.ai/stereo_quality/)Ключевой вывод в коррекцию вашей позиции: Это НЕ ВАЖНО просмотр домашний или нет. Важна ПЕРСОНАЛЬНАЯ ЧУВСТВИТЕЛЬНОСТЬ, которая основана на личных особенностях бинокулярного зрения.
Т.е. у вас один и тот же фильм с безумными косяками (например, минутой с лишним сцен с перепутанными ракурсами — реальный пример одного низкобюджетного фильма ужасов) может у т.н. stereo-blind людей вообще ничего не вызывать, а 10% наиболее чувствительных дарить на весь вечер незабываемую мигрень.
При этом к перепутанным ракурсам (безумный вариант вывернутой наизнанку сцены) можно привыкнуть. Были эксперименты, когда человеку надевали специальную насадку с призмами, которая "меняла глаза местами" и через некоторое время человек уже мог ориентироваться и двигаться.
Или, например, один и тот же фильм условно у бабушки может вызывать недетскую головную боль, а у внука — море восторга и ноль болевых ощущений. Более того, если внуку показывать такие "кривые" стереофильмы регулярно, его персональный "болевой порог" может достаточно сильно вырасти. В рамках страны подобный эксперимент был в Китае, где массово шли 3D релизы с косяками, неприемлемыми для европеоидов, но ширнармассы их воспринимали норм)
В общем вы можете "натренировать" себя на такое стерео и вам будет норм. А потом покажете друзьям и будет незапланированная реакция)))
Спасибо за приглашение, подробно ответил
https://habr.com/ru/articles/897860/#comment_28166358
TLDR -- ваш пайплайн обречен на ряд проблем с качеством. Описал почему.
Проблемы зачастую не фатальные, но неприятные.
В скобках замечу, что ровно из-за подобных проблем даже при их профессиональном решении в студиях постпродакшн многие не любят ходить на отконвертированные в 3D фильмы. У вас таких проблем будет много.
Только добрался до вашей статьи, сорри! (но спасибо за приглашение)
По пунктам.
Depth-Anything работает на удивление хорошо, но профессиональных Depth Artist он не заменит.
Его проблемы:
Нестабильность глубины во времени. При просмотре в очках это незаметно, но вообще говоря людей будет укачивать. При просмотре без очков вы можете заметить подергивания кадра.
Любые сцены, где будут полупрозрачные объекты на переднем плане (дым, туман, взрывы, стекло (витрины, шлемы и т.п.) будут отображаться некорректно (их глубину нужно специально обрабатывать). Головной боли, как в предыдущем случае, от этого, как правило, не будет (хотя найти жесткую сцену, думаю, будет можно), но это неприятно, поскольку будет смотреться странно.
Похожая проблема будет с любыми отраженными объектами (глубина в зеркалах или что хуже - отражения в пластике стен) и бликами. Они также будут в лучшем случае плоскими, в худшем жить своей жизнью.
Это по глубине. Я про нее могу много рассказывать, хотя пару статей про артефакты конвертации так и не выложил из-за падения интереса к теме. Мы в свое время много делали, например, сюда: https://www.yuvsoft.com/stereo-3d-technologies/2d-to-s3d-conversion-process/
Отдельная проблема - генерация стерео по глубине. Это на самом деле очень нетривиальный процесс и у вас будут следующие проблемы:
Во-первых, хорошо бы корректно заполнять области открытия-закрытия (я писал про это, например, тут), причем лучше из времени. В вашем покадровом пайплайне это невозможно по определению. Это приведет к эффекту т.н. "стеклянного колпака", когда зрителю будет казаться, что вокруг объектов стекло. Это происходит из-за того, что когда оклюжены заполняют из того же кадра они выглядят как преломление в стерео.
Вы выбрали примеры, где либо на заднем плане простой фон (первый и второй примеры), либо нет перепадов по глубине. На последнем примере этот эффект хорошо виден. Если будут сложные текстуры, видно будет еще лучше.
При профессиональной конвертации применяется восстановление фона (сегодня - генеративное), но это довольно дорогое удовольствие, особенно если фон динамически меняется.
Во-вторых, если экран большой и с хорошим разрешением, нужна обработка полупрозрачных границ. Ибо даже среднее движение (я уж молчу про быстрое) будет порождать размытие на краях обьектов, с которыми текущий пайплайн гарантированно будет порождать косяки. Т.е. в crazy motion сценах (какой-то экшен), у вас будет много прекрасного.
Тут в скобках замечу, что сайт https://videomatting.com/ - это внезапно наш сайт, и мы когда-то очень активно и тестировали чужие решения (в том числе только появлявшиеся тогда нейросетевые) и реализовывали свои, и делали решения для разных зарубежных компаний, в том числе и в киноиндустрии.
В этом плане совершенно не случайно на мой вкус у вас все приведенные примеры, это сцены в которых почти нет движения)))
Также замечу, что сейчас перспективно выглядят условно NERF-based подходы, которые позволяют делать стерео, лишенное описанных недостатков, но со своими другими недостатками на данный момент))) (начиная с вычислительной сложности). Тем не менее года через 3-4 пайплайн на их основе даже на опенсорсе даст результат по качеству кардинально выше вашего текущего.
Сказать еще есть что, но и так уже довольно много)
Там у меня бага - 7 часть пропущена, и вы ее тоже скопировали. Добавьте, плз:
Почему от 3D болит голова / Часть 7: Сдвиг во времени между ракурсами
Конвертацией мы занимались плотно, в том числе зарабатывали на снижении ее себестоимости. Но актуальность темы в плане Хабра заметно упала, а мы много чем еще занимаемся, что сегодня вполне заходит. Так что она, видимо, останется до новой волны, которая судя по выставкам точно будет, но предсказать ее точно довольно сложно.
Так что скорее что-то из актуальных на сегодня черновиков доведу. Например, из моих лекций и докладов про 4D) (это не которые в лицо брызгают, а которые - световые поля))) Тема сейчас очень активно развивается.
Желающие могут глянуть стартап Виктора Лемпицкого (многие знают его по Сколтеху и Центру ИИ Самсунга) Cinemersive Lab:
https://www.cinemersivelabs.com/ - там много демок на сайте (они мышкой управляются https://demo.cinemersivelabs.com/).
По сути они из одного фото делают 4D кадр. С видео тоже работают, но там объективно сложнее и косяки чаще. Если внимательно их демки смотреть, то там косяки и в текущем варианте есть, но учитывая что у них очень небольшая команда они "в одну кнопку" делают, что еще недавно заняло бы недели работы у студии пост-продакшн. Ну и алгоритмически это младенчество алгоритмов такого рода, конечно. Дальше будет круче!)
Спасибо, что нашли в себе силы ответить)
И, да, хотя бы первый график поправьте хотя бы по данным википедии) (это будет без Китая, где тоже вполне снимают 3D, но пусть так)
Можете мои комментарии вынести в UPD к статье с указанием авторства. Статья от этого только выиграет.
VAC было очень сложно не знать, поскольку на него в те годы чаще всего ссылались некоторые наиболее ушлые продюсеры. С самым умным видом. Типа, это то, что мы в кинотеатре по определению пофиксить не можем. Объекты на разном расстоянии от экрана, а глазу нужно фокусироваться на экран. Вот и все, вот и неизбежный дискомфорт. Сделать ничего нельзя! [У меня лапки]
Профессиональных стереограферов такая постановка вопроса выбешивала. У тебя сцу[дорогой продюсор] 3 сцены с перепутанными ракурсами, 20 сцен с серьезным рассинхроном по времени и больше 100 сцен рассинхроном по резкости. Ты каждую минуту почти зрителя кувалдой по условному мозжечку лупишь с размаху. И ты бл[дорого человек] рассуждаешь о том, что ничем не отличаешься от лучших фильмов, поскольку якобы "ничего сделать нельзя". А c с тобой скоти[замечательный начальник] реально боролись, чтобы еще хотя бы 50 сцен поправить (что деньги и время, которых ты не давал). И некоторые пали в этой неравной борьбе (были уволены прямо в середине проекта), ибо бабло побеждает почти все в нашем прекрасном мире. И уже тем более какое-то там жалкое никому не нужно качество стерео.
Ну и если уж про науку и ваше чудное пояснение. Чтоб вы были в курсе: на Stereoscopic Displays & Applications - старейшей и крупнейшей в мире конференции по стерео, проходящей в Калифорнии зубры конференции очень любили троллить подавляющее большинство упоминавших VAC в докладах. Лично Vice Chairman конференции (офигенный чел, кстати, делавший предисловия к нашим отчетам) с ледяной вежливостью интересовался у упоминавших VAC (особенно в контексте кинотеатров): "Дорогой докладчик, а какое у вас было расстояние до экрана?" И когда называлось, например, 10 или 20 метров шел добивающий вопрос: "А на каком расстоянии от экрана VAC практически перестает влиять на дискомфорт?" Поскольку по научным замерам, дискомфорт от VAC уходит примерно в ноль (его не удается поймать даже для больших выборок участников) на расстоянии больше 2-3 метров. Несколько таких показательных порок и среди 600 сидящих в зале слушателей доклада почему-то сильно падало желание к месту и не к месту VAC упоминать.
Так что плохому танцору и VAC мешает), это безусловно. А то, что там в фильме полно сцен со Scale mismatch, или Rotation mismatch, или Color mismatch, или Sharpness mismatch, или Stereo window violation, или Crosstalk noticeability, или Channel mismatch, или Temporal asynchrony, или Perspective distortions, или Converged axes про то пиплу знать необязательно. Это и сложно, и глубоко неважно.
Именно поэтому все это радостно шло в релиз. Кушать подано, дорогие друзья! На вас [в очередной раз] сэкономили!
Экономить на вас таким образом тем проще, чем больше людей не разбираются в вопросе. А не разбирается большинство. Отлично! Экономим!)
Безусловно. Причем предыдущая крупная волна хайпа 3D фильмов в США была в 1952 году, и развивалась она по точно тем же законам. В том плане, что был хорошо сделанный удачный фильм, от которого народ пришел в восторг и дальше стали снимать больше 40 фильмов в год. С КУЧЕЙ проблем. Мы пару фильмов той поры проанализировали, там всех косяков хватало с горкой: и перепутанные ракурсы, и сдвиг во времени между ракурсами (в том числе на некратное число кадров, которое так просто не исправить!) - очень неприятная и болезненная ситуация, когда вы поднимаете руку, а в одном кадре она выше, чем в другом одновременно...., и поворот кадров, и разный масштаб кадров, и расфокус, и более тонкие косяки.
Причем многие из этих проблем, типа разного масштаба сегодня исправляются даже встроенными средствами The Foundry Nuke, но в 1952 году поправить их было крайне сложно и дорого. За что тогда люди и платили головной болью, причем более сильной, чем сейчас. Что и убило волну буквально за год.
60 лет спустя, в последнюю крупную волну было намного проще все это исправлять (хоте не все этим запаривались, мы переписывались с доброй сотней стереограферов мира, которые всеми руками поддерживали наши разработки, и рассказывали страшные истории из своей нелегкой жизни). С некоторыми встречались лично в LA. Волна продержалась дольше. При этом процесс совершенствования средств исправления косяков продолжает идти.
А глобально будущее за пленоптикой (я про это писал в Вычисляемое видео в 755 мегапикселей: пленоптика вчера, сегодня и завтра) Сегодня она незаметно подкрадывается в виде dual-pixel камер в iPhone и других, не за горами quad-pixel, а там и больше, но это горизонт 10 лет примерно.
Как-то так)))
Спасибо! )
Посмотрел комментарии, похоже никто не заметил, что описываемая в статье картина не соответствует реальности (я про обнуление 15-20 снимаемых даже после ковида 3D фильмов и забытом "Аватаре 2").
Интересно, что это работает и в другую сторону. Сейчас очень мощно развиваются технологии показа 3D существенно более высокого качества, от которых голова будет болеть меньше. В первую очередь - лазерная проекция. В Китае производство таких проекторов развивается очень мощно. И новые залы кинотеатров часто ставятся с ними, причем поддержку 3D они получают, как опцию, по довольно съедобной цене. Как следствие, сейчас по миру залов с поддержкой 3D примерно в 6-7 раз больше, чем было в 2010 году, когда вышел первый Аватар и была очередная волна интереса к 3D (5-я, помнится). Соответственно, готовность к следующей волне заметно выше (но не у всех))). Но кто это видит кроме специалистов? Для широких народных масс появление всех этих экранов будет совершенно неожиданным.
Аналогично в производстве контента постепенно уменьшается количество ручной работы на конвертации при том же качестве. Особенно с последними результатами типа Video Depth Anything (дата релиза 22 января этого года!) и Segment Anything 2 (релиз полгода назад, по сути одна из первых фундаментальных моделей в компьютерном зрении). Это маленькая революция, которая вместе с генеративным инпаинтингом, сохраняющим когерентность в видео (еще одно по сути свежее маленькое чудо последних лет) позволяет сильно снизить стоимость конвертации. А ведь еще NeRF (Neural Radiance Fields) параллельно развиваются! Их пока довольно дорого совмещать с конвертацией (и по качеству, и по вычислительным ресурсам), но скорость их развития поражает. До продуктов все это великолепие добирается не так быстро, как хотелось бы, но добирается и свое дело делает. Толпы индусов, годами шуровавшие clean plates уже переучиваются.
Все больше рыночный потенциал у автостереоскопических дисплеев. 8К по сути мало кому нужно (хотя "все купили, и я купил" работает), а вот для автостереоскопии оно прям критично и даже мало (хотя видимые 2K в 3D без очков будут и даже чуть больше)))
Ну а дальше все будет как обычно)
Как было с СhatGPT и сотнями технологий до нее. Плавно улучшающаяся технология в какой-то момент со свистом ворвется на рынок. Совершенно и абсолютно неожиданно! ))))
А сейчас мы читаем, как все окончательно и бесповоротно умерло) И не развивается) И это лайкают)
Почитал комментарии, мне кажется раньше народ был более технически грамотным (ну и трава была зеленее, и дискеты больше)))
А вообще думаю с NERF & GS в их следующей инкарнации будет совершенно новое 4D кино (к приходу которого готовятся производители, показывая прикольные девайсы на выставках), но пока еще рано.
Материализовался)
Ответил)
Это сильное упрощение) Но в итоге все уперлось в деньги. Кинотеатры экономили на оборудование, продюсоры экономили на качестве фильмов. У людей болела голова.
Я все это очень подробно описал в серии статей "Почему от 3D болит голова":
Почему от 3D болит голова / Часть 1: Недостатки оборудования
Почему от 3D болит голова / Часть 2: Дискомфорт из-за качества видео
Почему от 3D болит голова / Часть 3: Перепутанные ракурсы
Почему от 3D болит голова / Часть 4: Параллакс
Почему от 3D болит голова / Часть 5: Геометрические искажения в стерео
Почему от 3D болит голова / Часть 6: Искажения цвета
Почему от 3D болит голова / Часть 8: Расфокус и будущее 3D
Там описана часть нашего проекта разработки метрик качества стерео. Всего было разработано 18 метрик и проанализировано под 200 фильмов (на деньги западных компаний мы купили пачку Blu-Ray дисков и прогнали их через метрики). Подробности на английском тут: https://videoprocessing.ai/stereo_quality/
Ну и не могу удержаться, сорри...
Ноль фильмов в 2022? Серьезно? А вы не пробовали в википедию зайти? )))
https://en.wikipedia.org/wiki/List_of_3D_films_(2005–present) - тут 17 фильмов
https://en.wikipedia.org/wiki/Category:2022_3D_films - тут 20 в 2022
И это без азиатских.
На секундочку второй Аватар вышел в 2022... Хотя зачем его считать? Так?))) Легкая погрешность! )
Конечно, нет)
Вы вот взяли и отменили прогресс) Качество конвертации (за счет алгоритмом обработки видео) внезапно постоянно растет, а цена падает. Мы на этом рынке вполне зарабатывали (ну и пытались его спасти, измеряя и улучшая качество).
Вы помечтали) В кино возможно все! (во всех смыслах)
В одном фильме ужасов мы нашли полторы минуты перепутанных ракурсов (самая простая ошибка с точки зрения стоимости исправления). И ничего! Ушло в релиз) Как мы шутили - при просмотре этого ужастика, вам будет не только страшно, но и больно.
Ну и замечу, что среди 18 метрик было 4 метрики специально для сконвертированного контента. Там с косяками тоже все в порядке) Но на хабр об этом уже не писали, увы, только на английском узкоспециальные тексты можно почитать.
Поискал реальные характеристики - пока только реклама, очень мало данных. Неясно сколько там реальных ракурсов, неясен входной формат и т.д.
14 лет назад Samsung в "первую волну" 3D прославились тем, что одними из первых массово выпустили 3D телевизоры, но они очень торопились "поймать волну", поэтому технология была очень сырой и в 3D режиме яркость экрана падала в 7 раз + это были активные очки, поэтому условно 1/7 времени был "открыт" правый глаз, потом длинная пауза, потом 1/7 времени "открыт" левый. В итоге человек видел правую и левую картинку с заметной разницей во времени, что порождало дискомфорт. Вдобавок они во всех рекламах написали, что телевизор может "автоматически конвертировать любой канал в 3D" и менеджеры продаж продавали его в магазинах под этим соусом (рука-лицо).
Тех пор утекло немало воды и алгоритмы автоконвертации в 3D стали заметно лучше, но до нормального результата (realtime!) там еще плыть и плыть. Зачем они опять это в рекламу опять вставляют - вопрос хороший.
Касательно разрешения и вычислительных мощностей:
У них камера отслеживает положение головы, это позволяет уменьшить количество ракурсов при нормальном качестве (правда с гарантией - только для одного человека). Это повышает видимое разрешение (+ там потери только по горизонтали, что субъективно разрешение также повышает)
А активное распространение шлемов и игр для них прокачало тему эффективной генерации 2 ракурсов на видеокартах и в играх, так что в принципе для игры там доп затраты по компьюту могут быть не столь велики.
Как-то так, если кратко)
А вот это сильно)))
К тому идем широким шагом)
ровно так)
Все так) На практике некоторое множество WAV при сжатии дает один MP3.
Спасибо за ответы)
Совершенно так, спасибо!
Берется какой-то декодер, как референсный (а разные декодеры дают несколько разные выходные стримы в основном из-за оптимизаций) и можно еще наиграть степень сжатия, если обеспечивать выходной файл бит в бит по декодированному стриму (WAV), а не по MP3.
Все так.
Хороший вопрос к профильным инженерам, но лично видел телевизор Sony с заявленными 200 FPS, который зачем-то пытался делать их из потока с меньшей частотой и заметно мылил картинку из-за этого (точнее там было 2 проблемы - мыло на мелких текстурах, на которых плохо ловится движение - листва, трава, мех, песок и т.п. + характерные артефакты на границе быстро движущихся объектов - которые особенно хорошо видны, когда камера следит за обьектом, он в фокусе, а фон сравнительно быстро сдвигается).
Вопрос, зачем они это сделали, не дает мне покоя)
Люто плюсую!
У меня профдеформация - я просто глазами вижу косяки в видео (и на экранах) и часто понимаю, какой алгоритм их дает.
Очень частая картина - маркетинг "продает" увеличение цифр - типа 4К телевизор (конечно!) круче 2К, а 200 FPS - в два раза (не меньше!) лучше, чем 100 FPS. И пипл это хавает. А дальше начинается жесть, когда у вас характеристики матрицы таковы, что вы НЕ МОЖЕТЕ отключить алгоритмы повышения разрешения и увеличения частоты - они у вас должны быть (там есть нюансы, но в целом...). А дальше прикол, в том, что алгоритмы не могут не давать косяки в некоторых случаях. Например, преобразование частоты кадров сбоит на некоторых границах и т.п.
А еще требование бизнеса - чтобы себестоимость девайса была низкой и туда при отличной матрице ставится чип, который просто по производительности не вывозит нормальные алгоритмы. На результат я не могу смотреть без слез. Но... ЛЮДИ ЭТО ПОКУПАЮТ! Мне это непонятно, но это факт, к великому сожалению...
А увеличение резкости, кстати, прямо в кодек вставляют сейчас (причем в енкодер). Мы сейчас с одной крупной транснациональной компанией на эту тему работаем. И пока у вас картинка идет на смарфон - все норм (и даже лучше становится), но когда тот же поток идет на телевизор (особенно дешевый) - идет дикий (кровь из глаз) овершарп.
Так выглядят гримасы прогресса через призму охрененно эффективного бизнеса... (это я подбирая слова)
А где именно пишут, простите?)
Ну и написать такое большого ума не надо. Какие реализации LCEVC и HEVC сравниваются?
На картинке выше со штриховкой - открытые реализации (часто опенсорсные), а плотным цветом - приватные. Поскольку написание кодека - это (внезапно) довольно долгая и дорогая история, то опенсорсные реализации по качеству на приличный уровень выходят сильно не сразу.
Что, естественно, не мешает брать какой-нибудь xin26x (VVC) и радостно писать - мы тут замерили и этот ваш VVC - полное говно по сравнению с AV1 (от libaom) - дает файлы почти в 2 раза больше по размеру при том же качестве!!! (ну или мы тут HEVC (SVT-HEVC) с AVC (x264) сравнили, HEVC полной фигней оказался - всего на 2% лучше). При этом реальная картина, самую малость отличается))) Примерно полностью)
Причем в реальной жизни так и делают (если отчет инвесторам горит или хайпа ради). Даже крупные компании иногда. Я про это подробно писал в статье Уличная магия сравнения кодеков. Раскрываем секреты.
Больше профессиональных примеров метрик и сравнений в этом интервью.
Вы не поверите, но у меня основной доход (внезапно) раньше был от производителей телевизоров, а дальше - от разработчиков кодеков и решения для стриминга и видеоконференций)
Причем после выхода нашего самого известного бенчмарка метрик качества видео (датасет для которого мы собирали 5 лет), написали даже YouTube Media Algorithm Team (презрев санкции и предложив сотрудничать))). Но улучшать решения стриминга Google, Intel, NVIDIA, Huawei, ByteDance (TikTok), Alibaba, Tencent и далее по списку мы помогаем (список не полный, первым - раньше, остальным сейчас).
В общем - про другие оценки - это вы прям хорошо попали) Выше интервью, кстати, на портале StreamingMedia. Вы можете внимательно изучить их портал, у каких еще лабораторий университетов они берут интервью и вообще сколько таких в мире) Мы не единственные, конечно, кто так плотно работает с индустрией, но таких немного, скажу я вам.
На paperswithcode наши бенчмарки, внезапно, в топе в задачах Video Quality Assessment и Image Quality Assessment (что значит, что мы протестировали больше всех опенсорсных реализаций метрик). При этом у нас раскрыты (опубликованы) не все работы, часть продается компаниям. Увы, финансирование науки в России не фонтан, поэтому мы много занимаемся вещами, которые наиболее полезны компаниям, причем в первую очередь западным (последние 2 года - восточным) поскольку они платят заметно больше отечественных.