как я понимаю, вы планировали написать про проблемы конвертации 3D, но если и написали, то здесь не опубликовали. Где-то еще можно это почитать, или пока в планах?
Конвертацией мы занимались плотно, в том числе зарабатывали на снижении ее себестоимости. Но актуальность темы в плане Хабра заметно упала, а мы много чем еще занимаемся, что сегодня вполне заходит. Так что она, видимо, останется до новой волны, которая судя по выставкам точно будет, но предсказать ее точно довольно сложно.
Так что скорее что-то из актуальных на сегодня черновиков доведу. Например, из моих лекций и докладов про 4D) (это не которые в лицо брызгают, а которые - световые поля))) Тема сейчас очень активно развивается.
Желающие могут глянуть стартап Виктора Лемпицкого (многие знают его по Сколтеху и Центру ИИ Самсунга) Cinemersive Lab:
По сути они из одного фото делают 4D кадр. С видео тоже работают, но там объективно сложнее и косяки чаще. Если внимательно их демки смотреть, то там косяки и в текущем варианте есть, но учитывая что у них очень небольшая команда они "в одну кнопку" делают, что еще недавно заняло бы недели работы у студии пост-продакшн. Ну и алгоритмически это младенчество алгоритмов такого рода, конечно. Дальше будет круче!)
в зарубежных источниках VAC - vergence-accommodation conflict), который вы упомянули в комментариях к части 4, и о котором пишут не только журналисты, но и научные издания. ... Я так понял, суть VAC вы всё же знаете, просто формулировка не совсем удачная. Для других читателей данной дискуссии всё же распишу
VAC было очень сложно не знать, поскольку на него в те годы чаще всего ссылались некоторые наиболее ушлые продюсеры. С самым умным видом. Типа, это то, что мы в кинотеатре по определению пофиксить не можем. Объекты на разном расстоянии от экрана, а глазу нужно фокусироваться на экран. Вот и все, вот и неизбежный дискомфорт. Сделать ничего нельзя! [У меня лапки]
Профессиональных стереограферов такая постановка вопроса выбешивала. У тебя сцу[дорогой продюсор] 3 сцены с перепутанными ракурсами, 20 сцен с серьезным рассинхроном по времени и больше 100 сцен рассинхроном по резкости. Ты каждую минуту почти зрителя кувалдой по условному мозжечку лупишь с размаху. И ты бл[дорого человек] рассуждаешь о том, что ничем не отличаешься от лучших фильмов, поскольку якобы "ничего сделать нельзя". А c с тобой скоти[замечательный начальник] реально боролись, чтобы еще хотя бы 50 сцен поправить (что деньги и время, которых ты не давал). И некоторые пали в этой неравной борьбе (были уволены прямо в середине проекта), ибо бабло побеждает почти все в нашем прекрасном мире. И уже тем более какое-то там жалкое никому не нужно качество стерео.
Ну и если уж про науку и ваше чудное пояснение. Чтоб вы были в курсе: на Stereoscopic Displays & Applications - старейшей и крупнейшей в мире конференции по стерео, проходящей в Калифорнии зубры конференции очень любили троллить подавляющее большинство упоминавших VAC в докладах. Лично Vice Chairman конференции (офигенный чел, кстати, делавший предисловия к нашим отчетам) с ледяной вежливостью интересовался у упоминавших VAC (особенно в контексте кинотеатров): "Дорогой докладчик, а какое у вас было расстояние до экрана?" И когда называлось, например, 10 или 20 метров шел добивающий вопрос: "А на каком расстоянии от экрана VAC практически перестает влиять на дискомфорт?" Поскольку по научным замерам, дискомфорт от VAC уходит примерно в ноль (его не удается поймать даже для больших выборок участников) на расстоянии больше 2-3 метров. Несколько таких показательных порок и среди 600 сидящих в зале слушателей доклада почему-то сильно падало желание к месту и не к месту VAC упоминать.
Безусловно. Причем предыдущая крупная волна хайпа 3D фильмов в США была в 1952 году, и развивалась она по точно тем же законам. В том плане, что был хорошо сделанный удачный фильм, от которого народ пришел в восторг и дальше стали снимать больше 40 фильмов в год. С КУЧЕЙ проблем. Мы пару фильмов той поры проанализировали, там всех косяков хватало с горкой: и перепутанные ракурсы, и сдвиг во времени между ракурсами (в том числе на некратное число кадров, которое так просто не исправить!) - очень неприятная и болезненная ситуация, когда вы поднимаете руку, а в одном кадре она выше, чем в другом одновременно...., и поворот кадров, и разный масштаб кадров, и расфокус, и более тонкие косяки.
Причем многие из этих проблем, типа разного масштаба сегодня исправляются даже встроенными средствами The Foundry Nuke, но в 1952 году поправить их было крайне сложно и дорого. За что тогда люди и платили головной болью, причем более сильной, чем сейчас. Что и убило волну буквально за год.
60 лет спустя, в последнюю крупную волну было намного проще все это исправлять (хоте не все этим запаривались, мы переписывались с доброй сотней стереограферов мира, которые всеми руками поддерживали наши разработки, и рассказывали страшные истории из своей нелегкой жизни). С некоторыми встречались лично в LA. Волна продержалась дольше. При этом процесс совершенствования средств исправления косяков продолжает идти.
Посмотрел комментарии, похоже никто не заметил, что описываемая в статье картина не соответствует реальности (я про обнуление 15-20 снимаемых даже после ковида 3D фильмов и забытом "Аватаре 2").
Интересно, что это работает и в другую сторону. Сейчас очень мощно развиваются технологии показа 3D существенно более высокого качества, от которых голова будет болеть меньше. В первую очередь - лазерная проекция. В Китае производство таких проекторов развивается очень мощно. И новые залы кинотеатров часто ставятся с ними, причем поддержку 3D они получают, как опцию, по довольно съедобной цене. Как следствие, сейчас по миру залов с поддержкой 3D примерно в 6-7 раз больше, чем было в 2010 году, когда вышел первый Аватар и была очередная волна интереса к 3D (5-я, помнится). Соответственно, готовность к следующей волне заметно выше (но не у всех))). Но кто это видит кроме специалистов? Для широких народных масс появление всех этих экранов будет совершенно неожиданным.
Аналогично в производстве контента постепенно уменьшается количество ручной работы на конвертации при том же качестве. Особенно с последними результатами типа Video Depth Anything (дата релиза 22 января этого года!) и Segment Anything 2 (релиз полгода назад, по сути одна из первых фундаментальных моделей в компьютерном зрении). Это маленькая революция, которая вместе с генеративным инпаинтингом, сохраняющим когерентность в видео (еще одно по сути свежее маленькое чудо последних лет) позволяет сильно снизить стоимость конвертации. А ведь еще NeRF (Neural Radiance Fields) параллельно развиваются! Их пока довольно дорого совмещать с конвертацией (и по качеству, и по вычислительным ресурсам), но скорость их развития поражает. До продуктов все это великолепие добирается не так быстро, как хотелось бы, но добирается и свое дело делает. Толпы индусов, годами шуровавшие clean plates уже переучиваются.
Все больше рыночный потенциал у автостереоскопических дисплеев. 8К по сути мало кому нужно (хотя "все купили, и я купил" работает), а вот для автостереоскопии оно прям критично и даже мало (хотя видимые 2K в 3D без очков будут и даже чуть больше)))
Ну а дальше все будет как обычно)
Как было с СhatGPT и сотнями технологий до нее. Плавно улучшающаяся технология в какой-то момент со свистом ворвется на рынок. Совершенно и абсолютно неожиданно! ))))
А сейчас мы читаем, как все окончательно и бесповоротно умерло) И не развивается) И это лайкают)
Почитал комментарии, мне кажется раньше народ был более технически грамотным (ну и трава была зеленее, и дискеты больше)))
А вообще думаю с NERF & GS в их следующей инкарнации будет совершенно новое 4D кино (к приходу которого готовятся производители, показывая прикольные девайсы на выставках), но пока еще рано.
Это сильное упрощение) Но в итоге все уперлось в деньги. Кинотеатры экономили на оборудование, продюсоры экономили на качестве фильмов. У людей болела голова.
Я все это очень подробно описал в серии статей "Почему от 3D болит голова":
Там описана часть нашего проекта разработки метрик качества стерео. Всего было разработано 18 метрик и проанализировано под 200 фильмов (на деньги западных компаний мы купили пачку Blu-Ray дисков и прогнали их через метрики). Подробности на английском тут: https://videoprocessing.ai/stereo_quality/
Ну и не могу удержаться, сорри...
на основе которой была составлена следующая диаграмма:
По стоимости хорошая конвертация сопоставима с затратами на саму 3D‑съемку
Конечно, нет)
а это значит, что успех восприятия 3D кино в целом как отрасли кинопроизводства все больше полагался на качество постобработки, которое в некотором роде является постоянной величиной
Вы вот взяли и отменили прогресс) Качество конвертации (за счет алгоритмом обработки видео) внезапно постоянно растет, а цена падает. Мы на этом рынке вполне зарабатывали (ну и пытались его спасти, измеряя и улучшая качество).
Но если изначально снятый в 3D фильм имплицитно подразумевал хорошую, качественную 3D сцену
Вы помечтали) В кино возможно все! (во всех смыслах)
В одном фильме ужасов мы нашли полторы минуты перепутанных ракурсов (самая простая ошибка с точки зрения стоимости исправления). И ничего! Ушло в релиз) Как мы шутили - при просмотре этого ужастика, вам будет не только страшно, но и больно.
Поискал реальные характеристики - пока только реклама, очень мало данных. Неясно сколько там реальных ракурсов, неясен входной формат и т.д.
14 лет назад Samsung в "первую волну" 3D прославились тем, что одними из первых массово выпустили 3D телевизоры, но они очень торопились "поймать волну", поэтому технология была очень сырой и в 3D режиме яркость экрана падала в 7 раз + это были активные очки, поэтому условно 1/7 времени был "открыт" правый глаз, потом длинная пауза, потом 1/7 времени "открыт" левый. В итоге человек видел правую и левую картинку с заметной разницей во времени, что порождало дискомфорт. Вдобавок они во всех рекламах написали, что телевизор может "автоматически конвертировать любой канал в 3D" и менеджеры продаж продавали его в магазинах под этим соусом (рука-лицо).
Тех пор утекло немало воды и алгоритмы автоконвертации в 3D стали заметно лучше, но до нормального результата (realtime!) там еще плыть и плыть. Зачем они опять это в рекламу опять вставляют - вопрос хороший.
Касательно разрешения и вычислительных мощностей:
У них камера отслеживает положение головы, это позволяет уменьшить количество ракурсов при нормальном качестве (правда с гарантией - только для одного человека). Это повышает видимое разрешение (+ там потери только по горизонтали, что субъективно разрешение также повышает)
А активное распространение шлемов и игр для них прокачало тему эффективной генерации 2 ракурсов на видеокартах и в играх, так что в принципе для игры там доп затраты по компьюту могут быть не столь велики.
Берется какой-то декодер, как референсный (а разные декодеры дают несколько разные выходные стримы в основном из-за оптимизаций) и можно еще наиграть степень сжатия, если обеспечивать выходной файл бит в бит по декодированному стриму (WAV), а не по MP3.
Особенно когда процессор этого ТВ физически не может родить 4К видеопоток, по этому там между ним и матрицей стоит апскейлер.
Все так.
Что за особенности такие (если это конечно не апскейлер, как выше в моем сообщении)? Картинка скейлится билинейкой или еще чем, а в частоте какая проблема - обновляй картинку по мере поступления, или переключи частоту на частоту видео, или кратную ей.
Хороший вопрос к профильным инженерам, но лично видел телевизор Sony с заявленными 200 FPS, который зачем-то пытался делать их из потока с меньшей частотой и заметно мылил картинку из-за этого (точнее там было 2 проблемы - мыло на мелких текстурах, на которых плохо ловится движение - листва, трава, мех, песок и т.п. + характерные артефакты на границе быстро движущихся объектов - которые особенно хорошо видны, когда камера следит за обьектом, он в фокусе, а фон сравнительно быстро сдвигается).
Ох и как же это бесит, особенно когда этот шарпинг нельзя отключить. Я даже встречал монитор (вроде какой-то лось) с неотключаемым шарпингом (можно было только уменьшить, но даже на минимуме все равно шарпил).
Люто плюсую!
У меня профдеформация - я просто глазами вижу косяки в видео (и на экранах) и часто понимаю, какой алгоритм их дает.
Очень частая картина - маркетинг "продает" увеличение цифр - типа 4К телевизор (конечно!) круче 2К, а 200 FPS - в два раза (не меньше!) лучше, чем 100 FPS. И пипл это хавает. А дальше начинается жесть, когда у вас характеристики матрицы таковы, что вы НЕ МОЖЕТЕ отключить алгоритмы повышения разрешения и увеличения частоты - они у вас должны быть (там есть нюансы, но в целом...). А дальше прикол, в том, что алгоритмы не могут не давать косяки в некоторых случаях. Например, преобразование частоты кадров сбоит на некоторых границах и т.п.
А еще требование бизнеса - чтобы себестоимость девайса была низкой и туда при отличной матрице ставится чип, который просто по производительности не вывозит нормальные алгоритмы. На результат я не могу смотреть без слез. Но... ЛЮДИ ЭТО ПОКУПАЮТ! Мне это непонятно, но это факт, к великому сожалению...
А увеличение резкости, кстати, прямо в кодек вставляют сейчас (причем в енкодер). Мы сейчас с одной крупной транснациональной компанией на эту тему работаем. И пока у вас картинка идет на смарфон - все норм (и даже лучше становится), но когда тот же поток идет на телевизор (особенно дешевый) - идет дикий (кровь из глаз) овершарп.
Так выглядят гримасы прогресса через призму охрененно эффективного бизнеса... (это я подбирая слова)
и кстати, Eyevinn Technology вот тут пишут, что LCEVC визуально для людей как раз хуже, чем HEVC) при одинаковых объективных метриках
то есть у них ровно противоположное мнение, чем что вы пишите
А где именно пишут, простите?)
Ну и написать такое большого ума не надо. Какие реализации LCEVC и HEVC сравниваются?
На картинке выше со штриховкой - открытые реализации (часто опенсорсные), а плотным цветом - приватные. Поскольку написание кодека - это (внезапно) довольно долгая и дорогая история, то опенсорсные реализации по качеству на приличный уровень выходят сильно не сразу.
Что, естественно, не мешает брать какой-нибудь xin26x (VVC) и радостно писать - мы тут замерили и этот ваш VVC - полное говно по сравнению с AV1 (от libaom) - дает файлы почти в 2 раза больше по размеру при том же качестве!!! (ну или мы тут HEVC (SVT-HEVC) с AVC (x264) сравнили, HEVC полной фигней оказался - всего на 2% лучше). При этом реальная картина, самую малость отличается))) Примерно полностью)
Больше профессиональных примеров метрик и сравнений в этом интервью.
и у других людей, кто профессионально занимаются решениями для стриминга, внезапно, другие субъективные оценки качества, чем у вас
Вы не поверите, но у меня основной доход (внезапно) раньше был от производителей телевизоров, а дальше - от разработчиков кодеков и решения для стриминга и видеоконференций)
Причем после выхода нашего самого известного бенчмарка метрик качества видео (датасет для которого мы собирали 5 лет), написали даже YouTube Media Algorithm Team (презрев санкции и предложив сотрудничать))). Но улучшать решения стриминга Google, Intel, NVIDIA, Huawei, ByteDance (TikTok), Alibaba, Tencent и далее по списку мы помогаем (список не полный, первым - раньше, остальным сейчас).
В общем - про другие оценки - это вы прям хорошо попали) Выше интервью, кстати, на портале StreamingMedia. Вы можете внимательно изучить их портал, у каких еще лабораторий университетов они берут интервью и вообще сколько таких в мире) Мы не единственные, конечно, кто так плотно работает с индустрией, но таких немного, скажу я вам.
На paperswithcode наши бенчмарки, внезапно, в топе в задачах Video Quality Assessment и Image Quality Assessment (что значит, что мы протестировали больше всех опенсорсных реализаций метрик). При этом у нас раскрыты (опубликованы) не все работы, часть продается компаниям. Увы, финансирование науки в России не фонтан, поэтому мы много занимаемся вещами, которые наиболее полезны компаниям, причем в первую очередь западным (последние 2 года - восточным) поскольку они платят заметно больше отечественных.
смотря что этим называть, я выше показал пример шарпа и перешарпа, там тоже есть "новые детали", но они не новые
Сдаюсь)
У меня точно не получится вас в чем-то убедить.
Но просто имейте ввиду, что рядом, в параллельной вселенной сейчас бурно развиваются алгоритмы ВОССТАНОВЛЕНИЯ разрешения, которые восстанавливают больше деталей. Вот картинка из наших работ:
Хотя и про нее можно сказать, что это все было в исходном изображении при большом желании )))) (правда в том, что оно было в исходном видео, причем извлечь эту информацию оттуда из временного домена крайне нетривиально).
если они обучены на "данных размеченных людьми", а не на объективных отличиях от оригинала – то их уже можно не называть объективными метриками) алгоритм должен максимально точно передать оригинал, а не сделать красивую картинку
Интересная мысль. По метрикам выходит порядка 3000 статей в год. Похоже, что все их авторы ошибаются, обучая и валидируя результаты на датасетах, размеченных людьми)
Ну либо вам надо им обьяснить, что objective image quality metric - это неверный термин. А то scholar два миллиона статей выдает...
уверен, для профессионалов мало что поменяется, например в телефонах от Самсунг уже очень давно есть нейросетевые "улучшайзеры" фото, вплоть до того, что они рисуют Луну со всеми кратерами из простого пятна на черном фоне, но профессионалы таким софтом не пользуются
Вы не поверите) В комментариях к моей старой статье про улучшение разрешения внезапно обсуждают использование SR в астрономии (где он используются уже лет 20), в точности для того, чтобы сделать много снимков, а потом получить итоговый снимок лучшего качества. Поэтому начиная с какого-то времени практически нереально стало встретить снимок от профессиональных астрономов, который не прошел бы через профессиональные алгоритмы восстановления разрешения, снижения шумов, восстановления динамического диапазона и т.д. Причем даже любители сейчас на такой софт постепенно переползают (даже на хабре статью про это видел). Там есть свои приколы, но в целом разница в качестве огромна. Возможно, вам стоит отговорить их от этого ненужного прогресса))) В конце концов не только их деды, но даже отцы такого себе не позволяли)
поэтому не думаю, что в проф кодеки и форматы будут встраивать такие форматы сжатия, которые делают красивую картинку для среднего потребителя, но ценой искажений оригинала
(тяжело вздохнув) Не думайте. Но скоро вы не сможете купить ни один телевизор. Причем чем более топовым и дорогим он будет, тем меньше шансов (поскольку более навороченные алгоритмы будут использоваться).
С телефонами все то же самое.
Надеюсь написать статью про JPEG AI (который уже на финишной и в комитет по стандартизации которого мне посчастливилось попасть), там тема красоты уходит куда-то за край даже на мой ко многому привычный взгляд.
я говорю, что такие же артефакты бывает от перешарпа, это не значит, что можно сделать один-в-один простым шарпом, все-таки это разные алгоритмы сжатия
Новые детали есть или нет?
Я утверждал, что стало больше деталей, вы "там не больше деталей".
А что до oversharpening, то как разработчик алгоритмов обработки могу только констатировать, что его ЦЕЛЕНАПРАВЛЕННО заказывает бизнес (и раньше и в прямо в одном из текущих наших проектов), по причине того, что люди массово это любят (увы!). Сохранение деталей при этом идет своим (очень непростым) путем (почти не пересекаясь). Ибо люди любят красиво, а не точно (сейчас с JPEG AI это будет очень явно).
Ну и если вы внимательно прочитаете саму статью, то (внезапно) обнаружите, что овершарп любят не только люди, но и новые модные объективные метрики (по понятным причинам - они обучаются на данных, размеченных людьми). Это значит, что новые AI алгоритмы будут заточены на легкий овершарп при обучении по этим метрикам.
Прям не знаю, каково вам будет жить с вашей позицией в ближайшем прекрасном нейросетевом будущем)
там не больше деталей, там перешарп и артефакты в виде обводки-ауры
Сделайте, пожалуйста, шарпом из средней картинки правую на бурунах справа от сапборда и на волнах наверху справа от подписи, будет очень интересно посмотреть, что вы сможете вытянуть с вашим опытом
Это вид графика, который был бы полезен для любых батарей и аккумуляторов любой стоимости. Сейчас нужно смотреть рэнк по емкости и в таблице смотреть стоимость, а так они сразу будут видны.
(И пользуясь случаем спасибо за совет со взвешиванием упаковки! Купил через Ozon упаковку (видимо паленых) батареек Varta, они умерли просто моментально. И рейтинг товаров не очень сильно работает (видимо маржа позволяет им покупать отзывы или в начале продают нормальные)).
горячо плюсую! @AlexeyNadezhin Освойте, пожалуйста, график в двух координатах - емкость/стоимость! (когда батарейки будут точками/крестиками/звездочками разных цветов). Их строят и эксель и гуглодоки! Намного удобнее будет анализировать бренды.
Там у меня бага - 7 часть пропущена, и вы ее тоже скопировали. Добавьте, плз:
Почему от 3D болит голова / Часть 7: Сдвиг во времени между ракурсами
Конвертацией мы занимались плотно, в том числе зарабатывали на снижении ее себестоимости. Но актуальность темы в плане Хабра заметно упала, а мы много чем еще занимаемся, что сегодня вполне заходит. Так что она, видимо, останется до новой волны, которая судя по выставкам точно будет, но предсказать ее точно довольно сложно.
Так что скорее что-то из актуальных на сегодня черновиков доведу. Например, из моих лекций и докладов про 4D) (это не которые в лицо брызгают, а которые - световые поля))) Тема сейчас очень активно развивается.
Желающие могут глянуть стартап Виктора Лемпицкого (многие знают его по Сколтеху и Центру ИИ Самсунга) Cinemersive Lab:
https://www.cinemersivelabs.com/ - там много демок на сайте (они мышкой управляются https://demo.cinemersivelabs.com/).
По сути они из одного фото делают 4D кадр. С видео тоже работают, но там объективно сложнее и косяки чаще. Если внимательно их демки смотреть, то там косяки и в текущем варианте есть, но учитывая что у них очень небольшая команда они "в одну кнопку" делают, что еще недавно заняло бы недели работы у студии пост-продакшн. Ну и алгоритмически это младенчество алгоритмов такого рода, конечно. Дальше будет круче!)
Спасибо, что нашли в себе силы ответить)
И, да, хотя бы первый график поправьте хотя бы по данным википедии) (это будет без Китая, где тоже вполне снимают 3D, но пусть так)
Можете мои комментарии вынести в UPD к статье с указанием авторства. Статья от этого только выиграет.
VAC было очень сложно не знать, поскольку на него в те годы чаще всего ссылались некоторые наиболее ушлые продюсеры. С самым умным видом. Типа, это то, что мы в кинотеатре по определению пофиксить не можем. Объекты на разном расстоянии от экрана, а глазу нужно фокусироваться на экран. Вот и все, вот и неизбежный дискомфорт. Сделать ничего нельзя! [У меня лапки]
Профессиональных стереограферов такая постановка вопроса выбешивала. У тебя сцу[дорогой продюсор] 3 сцены с перепутанными ракурсами, 20 сцен с серьезным рассинхроном по времени и больше 100 сцен рассинхроном по резкости. Ты каждую минуту почти зрителя кувалдой по условному мозжечку лупишь с размаху. И ты бл[дорого человек] рассуждаешь о том, что ничем не отличаешься от лучших фильмов, поскольку якобы "ничего сделать нельзя". А c с тобой скоти[замечательный начальник] реально боролись, чтобы еще хотя бы 50 сцен поправить (что деньги и время, которых ты не давал). И некоторые пали в этой неравной борьбе (были уволены прямо в середине проекта), ибо бабло побеждает почти все в нашем прекрасном мире. И уже тем более какое-то там жалкое никому не нужно качество стерео.
Ну и если уж про науку и ваше чудное пояснение. Чтоб вы были в курсе: на Stereoscopic Displays & Applications - старейшей и крупнейшей в мире конференции по стерео, проходящей в Калифорнии зубры конференции очень любили троллить подавляющее большинство упоминавших VAC в докладах. Лично Vice Chairman конференции (офигенный чел, кстати, делавший предисловия к нашим отчетам) с ледяной вежливостью интересовался у упоминавших VAC (особенно в контексте кинотеатров): "Дорогой докладчик, а какое у вас было расстояние до экрана?" И когда называлось, например, 10 или 20 метров шел добивающий вопрос: "А на каком расстоянии от экрана VAC практически перестает влиять на дискомфорт?" Поскольку по научным замерам, дискомфорт от VAC уходит примерно в ноль (его не удается поймать даже для больших выборок участников) на расстоянии больше 2-3 метров. Несколько таких показательных порок и среди 600 сидящих в зале слушателей доклада почему-то сильно падало желание к месту и не к месту VAC упоминать.
Так что плохому танцору и VAC мешает), это безусловно. А то, что там в фильме полно сцен со Scale mismatch, или Rotation mismatch, или Color mismatch, или Sharpness mismatch, или Stereo window violation, или Crosstalk noticeability, или Channel mismatch, или Temporal asynchrony, или Perspective distortions, или Converged axes про то пиплу знать необязательно. Это и сложно, и глубоко неважно.
Именно поэтому все это радостно шло в релиз. Кушать подано, дорогие друзья! На вас [в очередной раз] сэкономили!
Экономить на вас таким образом тем проще, чем больше людей не разбираются в вопросе. А не разбирается большинство. Отлично! Экономим!)
Безусловно. Причем предыдущая крупная волна хайпа 3D фильмов в США была в 1952 году, и развивалась она по точно тем же законам. В том плане, что был хорошо сделанный удачный фильм, от которого народ пришел в восторг и дальше стали снимать больше 40 фильмов в год. С КУЧЕЙ проблем. Мы пару фильмов той поры проанализировали, там всех косяков хватало с горкой: и перепутанные ракурсы, и сдвиг во времени между ракурсами (в том числе на некратное число кадров, которое так просто не исправить!) - очень неприятная и болезненная ситуация, когда вы поднимаете руку, а в одном кадре она выше, чем в другом одновременно...., и поворот кадров, и разный масштаб кадров, и расфокус, и более тонкие косяки.
Причем многие из этих проблем, типа разного масштаба сегодня исправляются даже встроенными средствами The Foundry Nuke, но в 1952 году поправить их было крайне сложно и дорого. За что тогда люди и платили головной болью, причем более сильной, чем сейчас. Что и убило волну буквально за год.
60 лет спустя, в последнюю крупную волну было намного проще все это исправлять (хоте не все этим запаривались, мы переписывались с доброй сотней стереограферов мира, которые всеми руками поддерживали наши разработки, и рассказывали страшные истории из своей нелегкой жизни). С некоторыми встречались лично в LA. Волна продержалась дольше. При этом процесс совершенствования средств исправления косяков продолжает идти.
А глобально будущее за пленоптикой (я про это писал в Вычисляемое видео в 755 мегапикселей: пленоптика вчера, сегодня и завтра) Сегодня она незаметно подкрадывается в виде dual-pixel камер в iPhone и других, не за горами quad-pixel, а там и больше, но это горизонт 10 лет примерно.
Как-то так)))
Спасибо! )
Посмотрел комментарии, похоже никто не заметил, что описываемая в статье картина не соответствует реальности (я про обнуление 15-20 снимаемых даже после ковида 3D фильмов и забытом "Аватаре 2").
Интересно, что это работает и в другую сторону. Сейчас очень мощно развиваются технологии показа 3D существенно более высокого качества, от которых голова будет болеть меньше. В первую очередь - лазерная проекция. В Китае производство таких проекторов развивается очень мощно. И новые залы кинотеатров часто ставятся с ними, причем поддержку 3D они получают, как опцию, по довольно съедобной цене. Как следствие, сейчас по миру залов с поддержкой 3D примерно в 6-7 раз больше, чем было в 2010 году, когда вышел первый Аватар и была очередная волна интереса к 3D (5-я, помнится). Соответственно, готовность к следующей волне заметно выше (но не у всех))). Но кто это видит кроме специалистов? Для широких народных масс появление всех этих экранов будет совершенно неожиданным.
Аналогично в производстве контента постепенно уменьшается количество ручной работы на конвертации при том же качестве. Особенно с последними результатами типа Video Depth Anything (дата релиза 22 января этого года!) и Segment Anything 2 (релиз полгода назад, по сути одна из первых фундаментальных моделей в компьютерном зрении). Это маленькая революция, которая вместе с генеративным инпаинтингом, сохраняющим когерентность в видео (еще одно по сути свежее маленькое чудо последних лет) позволяет сильно снизить стоимость конвертации. А ведь еще NeRF (Neural Radiance Fields) параллельно развиваются! Их пока довольно дорого совмещать с конвертацией (и по качеству, и по вычислительным ресурсам), но скорость их развития поражает. До продуктов все это великолепие добирается не так быстро, как хотелось бы, но добирается и свое дело делает. Толпы индусов, годами шуровавшие clean plates уже переучиваются.
Все больше рыночный потенциал у автостереоскопических дисплеев. 8К по сути мало кому нужно (хотя "все купили, и я купил" работает), а вот для автостереоскопии оно прям критично и даже мало (хотя видимые 2K в 3D без очков будут и даже чуть больше)))
Ну а дальше все будет как обычно)
Как было с СhatGPT и сотнями технологий до нее. Плавно улучшающаяся технология в какой-то момент со свистом ворвется на рынок. Совершенно и абсолютно неожиданно! ))))
А сейчас мы читаем, как все окончательно и бесповоротно умерло) И не развивается) И это лайкают)
Почитал комментарии, мне кажется раньше народ был более технически грамотным (ну и трава была зеленее, и дискеты больше)))
А вообще думаю с NERF & GS в их следующей инкарнации будет совершенно новое 4D кино (к приходу которого готовятся производители, показывая прикольные девайсы на выставках), но пока еще рано.
Материализовался)
Ответил)
Это сильное упрощение) Но в итоге все уперлось в деньги. Кинотеатры экономили на оборудование, продюсоры экономили на качестве фильмов. У людей болела голова.
Я все это очень подробно описал в серии статей "Почему от 3D болит голова":
Почему от 3D болит голова / Часть 1: Недостатки оборудования
Почему от 3D болит голова / Часть 2: Дискомфорт из-за качества видео
Почему от 3D болит голова / Часть 3: Перепутанные ракурсы
Почему от 3D болит голова / Часть 4: Параллакс
Почему от 3D болит голова / Часть 5: Геометрические искажения в стерео
Почему от 3D болит голова / Часть 6: Искажения цвета
Почему от 3D болит голова / Часть 8: Расфокус и будущее 3D
Там описана часть нашего проекта разработки метрик качества стерео. Всего было разработано 18 метрик и проанализировано под 200 фильмов (на деньги западных компаний мы купили пачку Blu-Ray дисков и прогнали их через метрики). Подробности на английском тут: https://videoprocessing.ai/stereo_quality/
Ну и не могу удержаться, сорри...
Ноль фильмов в 2022? Серьезно? А вы не пробовали в википедию зайти? )))
https://en.wikipedia.org/wiki/List_of_3D_films_(2005–present) - тут 17 фильмов
https://en.wikipedia.org/wiki/Category:2022_3D_films - тут 20 в 2022
И это без азиатских.
На секундочку второй Аватар вышел в 2022... Хотя зачем его считать? Так?))) Легкая погрешность! )
Конечно, нет)
Вы вот взяли и отменили прогресс) Качество конвертации (за счет алгоритмом обработки видео) внезапно постоянно растет, а цена падает. Мы на этом рынке вполне зарабатывали (ну и пытались его спасти, измеряя и улучшая качество).
Вы помечтали) В кино возможно все! (во всех смыслах)
В одном фильме ужасов мы нашли полторы минуты перепутанных ракурсов (самая простая ошибка с точки зрения стоимости исправления). И ничего! Ушло в релиз) Как мы шутили - при просмотре этого ужастика, вам будет не только страшно, но и больно.
Ну и замечу, что среди 18 метрик было 4 метрики специально для сконвертированного контента. Там с косяками тоже все в порядке) Но на хабр об этом уже не писали, увы, только на английском узкоспециальные тексты можно почитать.
Поискал реальные характеристики - пока только реклама, очень мало данных. Неясно сколько там реальных ракурсов, неясен входной формат и т.д.
14 лет назад Samsung в "первую волну" 3D прославились тем, что одними из первых массово выпустили 3D телевизоры, но они очень торопились "поймать волну", поэтому технология была очень сырой и в 3D режиме яркость экрана падала в 7 раз + это были активные очки, поэтому условно 1/7 времени был "открыт" правый глаз, потом длинная пауза, потом 1/7 времени "открыт" левый. В итоге человек видел правую и левую картинку с заметной разницей во времени, что порождало дискомфорт. Вдобавок они во всех рекламах написали, что телевизор может "автоматически конвертировать любой канал в 3D" и менеджеры продаж продавали его в магазинах под этим соусом (рука-лицо).
Тех пор утекло немало воды и алгоритмы автоконвертации в 3D стали заметно лучше, но до нормального результата (realtime!) там еще плыть и плыть. Зачем они опять это в рекламу опять вставляют - вопрос хороший.
Касательно разрешения и вычислительных мощностей:
У них камера отслеживает положение головы, это позволяет уменьшить количество ракурсов при нормальном качестве (правда с гарантией - только для одного человека). Это повышает видимое разрешение (+ там потери только по горизонтали, что субъективно разрешение также повышает)
А активное распространение шлемов и игр для них прокачало тему эффективной генерации 2 ракурсов на видеокартах и в играх, так что в принципе для игры там доп затраты по компьюту могут быть не столь велики.
Как-то так, если кратко)
А вот это сильно)))
К тому идем широким шагом)
ровно так)
Все так) На практике некоторое множество WAV при сжатии дает один MP3.
Спасибо за ответы)
Совершенно так, спасибо!
Берется какой-то декодер, как референсный (а разные декодеры дают несколько разные выходные стримы в основном из-за оптимизаций) и можно еще наиграть степень сжатия, если обеспечивать выходной файл бит в бит по декодированному стриму (WAV), а не по MP3.
Все так.
Хороший вопрос к профильным инженерам, но лично видел телевизор Sony с заявленными 200 FPS, который зачем-то пытался делать их из потока с меньшей частотой и заметно мылил картинку из-за этого (точнее там было 2 проблемы - мыло на мелких текстурах, на которых плохо ловится движение - листва, трава, мех, песок и т.п. + характерные артефакты на границе быстро движущихся объектов - которые особенно хорошо видны, когда камера следит за обьектом, он в фокусе, а фон сравнительно быстро сдвигается).
Вопрос, зачем они это сделали, не дает мне покоя)
Люто плюсую!
У меня профдеформация - я просто глазами вижу косяки в видео (и на экранах) и часто понимаю, какой алгоритм их дает.
Очень частая картина - маркетинг "продает" увеличение цифр - типа 4К телевизор (конечно!) круче 2К, а 200 FPS - в два раза (не меньше!) лучше, чем 100 FPS. И пипл это хавает. А дальше начинается жесть, когда у вас характеристики матрицы таковы, что вы НЕ МОЖЕТЕ отключить алгоритмы повышения разрешения и увеличения частоты - они у вас должны быть (там есть нюансы, но в целом...). А дальше прикол, в том, что алгоритмы не могут не давать косяки в некоторых случаях. Например, преобразование частоты кадров сбоит на некоторых границах и т.п.
А еще требование бизнеса - чтобы себестоимость девайса была низкой и туда при отличной матрице ставится чип, который просто по производительности не вывозит нормальные алгоритмы. На результат я не могу смотреть без слез. Но... ЛЮДИ ЭТО ПОКУПАЮТ! Мне это непонятно, но это факт, к великому сожалению...
А увеличение резкости, кстати, прямо в кодек вставляют сейчас (причем в енкодер). Мы сейчас с одной крупной транснациональной компанией на эту тему работаем. И пока у вас картинка идет на смарфон - все норм (и даже лучше становится), но когда тот же поток идет на телевизор (особенно дешевый) - идет дикий (кровь из глаз) овершарп.
Так выглядят гримасы прогресса через призму охрененно эффективного бизнеса... (это я подбирая слова)
А где именно пишут, простите?)
Ну и написать такое большого ума не надо. Какие реализации LCEVC и HEVC сравниваются?
На картинке выше со штриховкой - открытые реализации (часто опенсорсные), а плотным цветом - приватные. Поскольку написание кодека - это (внезапно) довольно долгая и дорогая история, то опенсорсные реализации по качеству на приличный уровень выходят сильно не сразу.
Что, естественно, не мешает брать какой-нибудь xin26x (VVC) и радостно писать - мы тут замерили и этот ваш VVC - полное говно по сравнению с AV1 (от libaom) - дает файлы почти в 2 раза больше по размеру при том же качестве!!! (ну или мы тут HEVC (SVT-HEVC) с AVC (x264) сравнили, HEVC полной фигней оказался - всего на 2% лучше). При этом реальная картина, самую малость отличается))) Примерно полностью)
Причем в реальной жизни так и делают (если отчет инвесторам горит или хайпа ради). Даже крупные компании иногда. Я про это подробно писал в статье Уличная магия сравнения кодеков. Раскрываем секреты.
Больше профессиональных примеров метрик и сравнений в этом интервью.
Вы не поверите, но у меня основной доход (внезапно) раньше был от производителей телевизоров, а дальше - от разработчиков кодеков и решения для стриминга и видеоконференций)
Причем после выхода нашего самого известного бенчмарка метрик качества видео (датасет для которого мы собирали 5 лет), написали даже YouTube Media Algorithm Team (презрев санкции и предложив сотрудничать))). Но улучшать решения стриминга Google, Intel, NVIDIA, Huawei, ByteDance (TikTok), Alibaba, Tencent и далее по списку мы помогаем (список не полный, первым - раньше, остальным сейчас).
В общем - про другие оценки - это вы прям хорошо попали) Выше интервью, кстати, на портале StreamingMedia. Вы можете внимательно изучить их портал, у каких еще лабораторий университетов они берут интервью и вообще сколько таких в мире) Мы не единственные, конечно, кто так плотно работает с индустрией, но таких немного, скажу я вам.
На paperswithcode наши бенчмарки, внезапно, в топе в задачах Video Quality Assessment и Image Quality Assessment (что значит, что мы протестировали больше всех опенсорсных реализаций метрик). При этом у нас раскрыты (опубликованы) не все работы, часть продается компаниям. Увы, финансирование науки в России не фонтан, поэтому мы много занимаемся вещами, которые наиболее полезны компаниям, причем в первую очередь западным (последние 2 года - восточным) поскольку они платят заметно больше отечественных.
Сдаюсь)
У меня точно не получится вас в чем-то убедить.
Но просто имейте ввиду, что рядом, в параллельной вселенной сейчас бурно развиваются алгоритмы ВОССТАНОВЛЕНИЯ разрешения, которые восстанавливают больше деталей. Вот картинка из наших работ:
Больше деталей в этой статье https://habr.com/ru/articles/716706/
Хотя и про нее можно сказать, что это все было в исходном изображении при большом желании )))) (правда в том, что оно было в исходном видео, причем извлечь эту информацию оттуда из временного домена крайне нетривиально).
Интересная мысль. По метрикам выходит порядка 3000 статей в год. Похоже, что все их авторы ошибаются, обучая и валидируя результаты на датасетах, размеченных людьми)
Возможно, вам стоит их наставить на путь истинный. Начать эффективнее всего отсюда с лучших:
https://paperswithcode.com/task/video-quality-assessment
https://paperswithcode.com/task/image-quality-assessment
Там ссылки на топовые в бенчмарках метрики и их код на гитхабе. Стоит им в issues написать, как надо правильно делать топовые метрики)))
Ну либо вам надо им обьяснить, что objective image quality metric - это неверный термин. А то scholar два миллиона статей выдает...
Вы не поверите) В комментариях к моей старой статье про улучшение разрешения внезапно обсуждают использование SR в астрономии (где он используются уже лет 20), в точности для того, чтобы сделать много снимков, а потом получить итоговый снимок лучшего качества. Поэтому начиная с какого-то времени практически нереально стало встретить снимок от профессиональных астрономов, который не прошел бы через профессиональные алгоритмы восстановления разрешения, снижения шумов, восстановления динамического диапазона и т.д. Причем даже любители сейчас на такой софт постепенно переползают (даже на хабре статью про это видел). Там есть свои приколы, но в целом разница в качестве огромна. Возможно, вам стоит отговорить их от этого ненужного прогресса))) В конце концов не только их деды, но даже отцы такого себе не позволяли)
(тяжело вздохнув) Не думайте. Но скоро вы не сможете купить ни один телевизор. Причем чем более топовым и дорогим он будет, тем меньше шансов (поскольку более навороченные алгоритмы будут использоваться).
С телефонами все то же самое.
Надеюсь написать статью про JPEG AI (который уже на финишной и в комитет по стандартизации которого мне посчастливилось попасть), там тема красоты уходит куда-то за край даже на мой ко многому привычный взгляд.
Новые детали есть или нет?
Я утверждал, что стало больше деталей, вы "там не больше деталей".
А что до oversharpening, то как разработчик алгоритмов обработки могу только констатировать, что его ЦЕЛЕНАПРАВЛЕННО заказывает бизнес (и раньше и в прямо в одном из текущих наших проектов), по причине того, что люди массово это любят (увы!). Сохранение деталей при этом идет своим (очень непростым) путем (почти не пересекаясь). Ибо люди любят красиво, а не точно (сейчас с JPEG AI это будет очень явно).
Ну и если вы внимательно прочитаете саму статью, то (внезапно) обнаружите, что овершарп любят не только люди, но и новые модные объективные метрики (по понятным причинам - они обучаются на данных, размеченных людьми). Это значит, что новые AI алгоритмы будут заточены на легкий овершарп при обучении по этим метрикам.
Прям не знаю, каково вам будет жить с вашей позицией в ближайшем прекрасном нейросетевом будущем)
Сделайте, пожалуйста, шарпом из средней картинки правую на бурунах справа от сапборда и на волнах наверху справа от подписи, будет очень интересно посмотреть, что вы сможете вытянуть с вашим опытом
Это вид графика, который был бы полезен для любых батарей и аккумуляторов любой стоимости. Сейчас нужно смотреть рэнк по емкости и в таблице смотреть стоимость, а так они сразу будут видны.
(И пользуясь случаем спасибо за совет со взвешиванием упаковки! Купил через Ozon упаковку (видимо паленых) батареек Varta, они умерли просто моментально. И рейтинг товаров не очень сильно работает (видимо маржа позволяет им покупать отзывы или в начале продают нормальные)).
горячо плюсую! @AlexeyNadezhin Освойте, пожалуйста, график в двух координатах - емкость/стоимость! (когда батарейки будут точками/крестиками/звездочками разных цветов). Их строят и эксель и гуглодоки! Намного удобнее будет анализировать бренды.