Pull to refresh
592
0
Dmitriy Vatolin @3Dvideo

Современная обработка видео

Send message

@3Dvideo, ваши прогнозы? выстрелит?

Поискал реальные характеристики - пока только реклама, очень мало данных. Неясно сколько там реальных ракурсов, неясен входной формат и т.д.

14 лет назад Samsung в "первую волну" 3D прославились тем, что одними из первых массово выпустили 3D телевизоры, но они очень торопились "поймать волну", поэтому технология была очень сырой и в 3D режиме яркость экрана падала в 7 раз + это были активные очки, поэтому условно 1/7 времени был "открыт" правый глаз, потом длинная пауза, потом 1/7 времени "открыт" левый. В итоге человек видел правую и левую картинку с заметной разницей во времени, что порождало дискомфорт. Вдобавок они во всех рекламах написали, что телевизор может "автоматически конвертировать любой канал в 3D" и менеджеры продаж продавали его в магазинах под этим соусом (рука-лицо).

Тех пор утекло немало воды и алгоритмы автоконвертации в 3D стали заметно лучше, но до нормального результата (realtime!) там еще плыть и плыть. Зачем они опять это в рекламу опять вставляют - вопрос хороший.

Касательно разрешения и вычислительных мощностей:

  • У них камера отслеживает положение головы, это позволяет уменьшить количество ракурсов при нормальном качестве (правда с гарантией - только для одного человека). Это повышает видимое разрешение (+ там потери только по горизонтали, что субъективно разрешение также повышает)

  • А активное распространение шлемов и игр для них прокачало тему эффективной генерации 2 ракурсов на видеокартах и в играх, так что в принципе для игры там доп затраты по компьюту могут быть не столь велики.

Как-то так, если кратко)

Алесксандр Лесь. "Шпаргалка". "Пионер", №8, 1990

А вот это сильно)))

К тому идем широким шагом)

Это как раз и есть "берётся референсный декодер", по идее.

ровно так)

Другой вопрос, что не каждому WAV соответствует какой-то MP3 (на то оно и сжатие с потерями), так что аналогия с хэш-суммой не совсем верна.

Все так) На практике некоторое множество WAV при сжатии дает один MP3.

Спасибо за ответы)

Совершенно так, спасибо!

Берется какой-то декодер, как референсный (а разные декодеры дают несколько разные выходные стримы в основном из-за оптимизаций) и можно еще наиграть степень сжатия, если обеспечивать выходной файл бит в бит по декодированному стриму (WAV), а не по MP3.

Особенно когда процессор этого ТВ физически не может родить 4К видеопоток, по этому там между ним и матрицей стоит апскейлер.

Все так.

Что за особенности такие (если это конечно не апскейлер, как выше в моем сообщении)? Картинка скейлится билинейкой или еще чем, а в частоте какая проблема - обновляй картинку по мере поступления, или переключи частоту на частоту видео, или кратную ей.

Хороший вопрос к профильным инженерам, но лично видел телевизор Sony с заявленными 200 FPS, который зачем-то пытался делать их из потока с меньшей частотой и заметно мылил картинку из-за этого (точнее там было 2 проблемы - мыло на мелких текстурах, на которых плохо ловится движение - листва, трава, мех, песок и т.п. + характерные артефакты на границе быстро движущихся объектов - которые особенно хорошо видны, когда камера следит за обьектом, он в фокусе, а фон сравнительно быстро сдвигается).

Вопрос, зачем они это сделали, не дает мне покоя)

Ох и как же это бесит, особенно когда этот шарпинг нельзя отключить. Я даже встречал монитор (вроде какой-то лось) с неотключаемым шарпингом (можно было только уменьшить, но даже на минимуме все равно шарпил).

Люто плюсую!

У меня профдеформация - я просто глазами вижу косяки в видео (и на экранах) и часто понимаю, какой алгоритм их дает.

Очень частая картина - маркетинг "продает" увеличение цифр - типа 4К телевизор (конечно!) круче 2К, а 200 FPS - в два раза (не меньше!) лучше, чем 100 FPS. И пипл это хавает. А дальше начинается жесть, когда у вас характеристики матрицы таковы, что вы НЕ МОЖЕТЕ отключить алгоритмы повышения разрешения и увеличения частоты - они у вас должны быть (там есть нюансы, но в целом...). А дальше прикол, в том, что алгоритмы не могут не давать косяки в некоторых случаях. Например, преобразование частоты кадров сбоит на некоторых границах и т.п.

А еще требование бизнеса - чтобы себестоимость девайса была низкой и туда при отличной матрице ставится чип, который просто по производительности не вывозит нормальные алгоритмы. На результат я не могу смотреть без слез. Но... ЛЮДИ ЭТО ПОКУПАЮТ! Мне это непонятно, но это факт, к великому сожалению...

А увеличение резкости, кстати, прямо в кодек вставляют сейчас (причем в енкодер). Мы сейчас с одной крупной транснациональной компанией на эту тему работаем. И пока у вас картинка идет на смарфон - все норм (и даже лучше становится), но когда тот же поток идет на телевизор (особенно дешевый) - идет дикий (кровь из глаз) овершарп.

Так выглядят гримасы прогресса через призму охрененно эффективного бизнеса... (это я подбирая слова)

и кстати, Eyevinn Technology вот тут пишут, что LCEVC визуально для людей как раз хуже, чем HEVC) при одинаковых объективных метриках

то есть у них ровно противоположное мнение, чем что вы пишите

А где именно пишут, простите?)

Ну и написать такое большого ума не надо. Какие реализации LCEVC и HEVC сравниваются?

На картинке выше со штриховкой - открытые реализации (часто опенсорсные), а плотным цветом - приватные. Поскольку написание кодека - это (внезапно) довольно долгая и дорогая история, то опенсорсные реализации по качеству на приличный уровень выходят сильно не сразу.

Что, естественно, не мешает брать какой-нибудь xin26x (VVC) и радостно писать - мы тут замерили и этот ваш VVC - полное говно по сравнению с AV1 (от libaom) - дает файлы почти в 2 раза больше по размеру при том же качестве!!! (ну или мы тут HEVC (SVT-HEVC) с AVC (x264) сравнили, HEVC полной фигней оказался - всего на 2% лучше). При этом реальная картина, самую малость отличается))) Примерно полностью)

Причем в реальной жизни так и делают (если отчет инвесторам горит или хайпа ради). Даже крупные компании иногда. Я про это подробно писал в статье Уличная магия сравнения кодеков. Раскрываем секреты.

Больше профессиональных примеров метрик и сравнений в этом интервью.

и у других людей, кто профессионально занимаются решениями для стриминга, внезапно, другие субъективные оценки качества, чем у вас

Вы не поверите, но у меня основной доход (внезапно) раньше был от производителей телевизоров, а дальше - от разработчиков кодеков и решения для стриминга и видеоконференций)

Причем после выхода нашего самого известного бенчмарка метрик качества видео (датасет для которого мы собирали 5 лет), написали даже YouTube Media Algorithm Team (презрев санкции и предложив сотрудничать))). Но улучшать решения стриминга Google, Intel, NVIDIA, Huawei, ByteDance (TikTok), Alibaba, Tencent и далее по списку мы помогаем (список не полный, первым - раньше, остальным сейчас).

В общем - про другие оценки - это вы прям хорошо попали) Выше интервью, кстати, на портале StreamingMedia. Вы можете внимательно изучить их портал, у каких еще лабораторий университетов они берут интервью и вообще сколько таких в мире) Мы не единственные, конечно, кто так плотно работает с индустрией, но таких немного, скажу я вам.

На paperswithcode наши бенчмарки, внезапно, в топе в задачах Video Quality Assessment и Image Quality Assessment (что значит, что мы протестировали больше всех опенсорсных реализаций метрик). При этом у нас раскрыты (опубликованы) не все работы, часть продается компаниям. Увы, финансирование науки в России не фонтан, поэтому мы много занимаемся вещами, которые наиболее полезны компаниям, причем в первую очередь западным (последние 2 года - восточным) поскольку они платят заметно больше отечественных.

смотря что этим называть, я выше показал пример шарпа и перешарпа, там тоже есть "новые детали", но они не новые

Сдаюсь)

У меня точно не получится вас в чем-то убедить.

Но просто имейте ввиду, что рядом, в параллельной вселенной сейчас бурно развиваются алгоритмы ВОССТАНОВЛЕНИЯ разрешения, которые восстанавливают больше деталей. Вот картинка из наших работ:

Больше деталей в этой статье https://habr.com/ru/articles/716706/

Хотя и про нее можно сказать, что это все было в исходном изображении при большом желании )))) (правда в том, что оно было в исходном видео, причем извлечь эту информацию оттуда из временного домена крайне нетривиально).

если они обучены на "данных размеченных людьми", а не на объективных отличиях от оригинала – то их уже можно не называть объективными метриками) алгоритм должен максимально точно передать оригинал, а не сделать красивую картинку

Интересная мысль. По метрикам выходит порядка 3000 статей в год. Похоже, что все их авторы ошибаются, обучая и валидируя результаты на датасетах, размеченных людьми)

Возможно, вам стоит их наставить на путь истинный. Начать эффективнее всего отсюда с лучших:
https://paperswithcode.com/task/video-quality-assessment
https://paperswithcode.com/task/image-quality-assessment
Там ссылки на топовые в бенчмарках метрики и их код на гитхабе. Стоит им в issues написать, как надо правильно делать топовые метрики)))

Ну либо вам надо им обьяснить, что objective image quality metric - это неверный термин. А то scholar два миллиона статей выдает...

уверен, для профессионалов мало что поменяется, например в телефонах от Самсунг уже очень давно есть нейросетевые "улучшайзеры" фото, вплоть до того, что они рисуют Луну со всеми кратерами из простого пятна на черном фоне, но профессионалы таким софтом не пользуются

Вы не поверите) В комментариях к моей старой статье про улучшение разрешения внезапно обсуждают использование SR в астрономии (где он используются уже лет 20), в точности для того, чтобы сделать много снимков, а потом получить итоговый снимок лучшего качества. Поэтому начиная с какого-то времени практически нереально стало встретить снимок от профессиональных астрономов, который не прошел бы через профессиональные алгоритмы восстановления разрешения, снижения шумов, восстановления динамического диапазона и т.д. Причем даже любители сейчас на такой софт постепенно переползают (даже на хабре статью про это видел). Там есть свои приколы, но в целом разница в качестве огромна. Возможно, вам стоит отговорить их от этого ненужного прогресса))) В конце концов не только их деды, но даже отцы такого себе не позволяли)

поэтому не думаю, что в проф кодеки и форматы будут встраивать такие форматы сжатия, которые делают красивую картинку для среднего потребителя, но ценой искажений оригинала

(тяжело вздохнув) Не думайте. Но скоро вы не сможете купить ни один телевизор. Причем чем более топовым и дорогим он будет, тем меньше шансов (поскольку более навороченные алгоритмы будут использоваться).

С телефонами все то же самое.

Надеюсь написать статью про JPEG AI (который уже на финишной и в комитет по стандартизации которого мне посчастливилось попасть), там тема красоты уходит куда-то за край даже на мой ко многому привычный взгляд.

я говорю, что такие же артефакты бывает от перешарпа, это не значит, что можно сделать один-в-один простым шарпом, все-таки это разные алгоритмы сжатия

Новые детали есть или нет?

Я утверждал, что стало больше деталей, вы "там не больше деталей".

А что до oversharpening, то как разработчик алгоритмов обработки могу только констатировать, что его ЦЕЛЕНАПРАВЛЕННО заказывает бизнес (и раньше и в прямо в одном из текущих наших проектов), по причине того, что люди массово это любят (увы!). Сохранение деталей при этом идет своим (очень непростым) путем (почти не пересекаясь). Ибо люди любят красиво, а не точно (сейчас с JPEG AI это будет очень явно).

Ну и если вы внимательно прочитаете саму статью, то (внезапно) обнаружите, что овершарп любят не только люди, но и новые модные объективные метрики (по понятным причинам - они обучаются на данных, размеченных людьми). Это значит, что новые AI алгоритмы будут заточены на легкий овершарп при обучении по этим метрикам.

Прям не знаю, каково вам будет жить с вашей позицией в ближайшем прекрасном нейросетевом будущем)

там не больше деталей, там перешарп и артефакты в виде обводки-ауры

Сделайте, пожалуйста, шарпом из средней картинки правую на бурунах справа от сапборда и на волнах наверху справа от подписи, будет очень интересно посмотреть, что вы сможете вытянуть с вашим опытом

Это вид графика, который был бы полезен для любых батарей и аккумуляторов любой стоимости. Сейчас нужно смотреть рэнк по емкости и в таблице смотреть стоимость, а так они сразу будут видны.

(И пользуясь случаем спасибо за совет со взвешиванием упаковки! Купил через Ozon упаковку (видимо паленых) батареек Varta, они умерли просто моментально. И рейтинг товаров не очень сильно работает (видимо маржа позволяет им покупать отзывы или в начале продают нормальные)).

горячо плюсую! @AlexeyNadezhin Освойте, пожалуйста, график в двух координатах - емкость/стоимость! (когда батарейки будут точками/крестиками/звездочками разных цветов). Их строят и эксель и гуглодоки! Намного удобнее будет анализировать бренды.

Как много общающийся со студентами свидетельствую, что уже выросло целое поколение не знающее, что такое МММ))) К сожалению или к счастью...

Спасибо за подробный ответ!

В моем понимании, навык "решать" состоит из двух других навыков:

Знания об инструментах и о том, какие из них можно применить к решению данной задачи.

Знания об особенностях применения каждого инструмента и последовательности их применения для достижения решения задачи.

Когда школьник находит решения в интернете, он точно так же как и вы использует два вышеизложенных пункта.

Обратите внимание, что у вас для "решения" не необходимости знать сам предмет))) (что вообще говоря не так).

Например, чтобы решить эту задачку в уме:

Нужно обладать навыками умножения и удержания в голове трехзначных чисел (ну либо уметь упрощать выражения в уме, что тоже непросто), выше в комментариях способы решения подробно разбирали.

Утверждается, что навык запуска Гугл.Обьектива (который сразу выдает ответ) на пару порядков проще. Для этого вообще говоря совершенно необязательно даже понимать задачу. Вы с этим не согласны, конечно? )

А наблюдаемая картина - у олимпиадников (которые прокачали решение задач в уме) навык создания сложных алгоритмов прокачивается быстро, а у основной массы студентов (привыкших к Google.Lens в режиме домашнего задания) - стало идти ощутимо сложнее. Те же самые задания, что выдавались 10 лет назад.

Ну а дальше рекрутеры упомянутой выше компании прибегают за аспирантами со словами "кому 750 тысяч рублей в месяц" не просто так, а поскольку таких кадров не хватает.

Вообще может как-нибудь соберусь, сделаю опрос Research Scientists получающих больше 800 тысяч в месяц, как у них в школе и университете дела шли. Но по опыту личных знакомств - корреляция конкретная)

Ваше требование заставить учащихся пользоваться устаревшими инструментами

КАКИМ устаревшим инструментом я заставляю пользоваться, позвольте уточнить?

Я топлю исключительно за использование МОЗГА, что критично для создания сложных алгоритмов.

Хотя... Возможно для кого-то он устарел, конечно)))

Да, из готовых блоков можно быстренько сложить хрущевку, но вот комфортный и приятный для жилья дом из них не получится. В будущем, когда хрущевки будут на рынке почти бесплатны, цены на комфортное жилье взлетят до небес.

Обратите внимание - у меня речь шла О СКОРОСТИ ПРОГРЕССА ИИ-помогаек. И о том, что изрядная доля их успеха в том, что они с фантастической скоростью находят все более и более адекватные готовые решения (конкурируя в наиболее прокачанном навыком современных школьников). Т.е. в терминах вашего примера - завтра блоки будут таковы, что можно будет и комфортное жилье сложить. Прикольно, что в вашей логике при этом цены взлетают, но... ладно... Видимо спрос на молодых людей (умеющих только искать готовое) тоже должен взлететь)

Возвращаюсь к первой части ваших вопросов. Я разочарован, что тема критического мышления и работы с иллюзиями сейчас не воспринимается всерьез и даже высмеивается старшим поколением.

Речь шла о другом, но я тоже разочарован.

Замечу, что очень неплохую лекцию Алексея Каптерева с введением в критическое мышление я (жестокий человек и ретроград!) заставлял смотреть студентов, которых набирал к себе в лабораторию. При том, что в целом тема не актуальна, у поста на Хабре с пересказом этой лекции 16 плюсов (считая два моих + плюсы моих коллег). Давайте смотреть правде в глаза - востребованность темы критического мышления близка к нулю.

Мое мнение: в школах нужно вводить новый предмет "критическое мышление", которому уделять не меньше часов, чем математике или русскому.

Кому нужно? Можете честно ответить?

Ну и мое мнение, как человека, который много занимался популяризацией критического мышления - люди (по незнанию) часто думают, что главное "критическое" (и они, конечно же, о-о-очень критичны!))), а там главное (внезапно!) "мышление"! Причем имеется ввиду мышление логическое с хорошим пониманием логики, с чем сегодня большие проблемы. Даже читая комментарии к этой статье очень легко набрать сотню примеров логических ошибок (когда делается одно утверждение, а ответ дается на другое, когда на основе черри-пикинга идет спор с трендами и т.д.). Кстати на днях статья Самые распространенные логические ошибки даже набрала +52 (и продолжает расти). При этом если почитать что журналисты пишут - это тихий ужас. Логических ошибок в их построениях - просто море.



Справедливости ради вполне успешные попытки решить проблему были. До революции, например, был учебник логики для гимназий


В в великую отечественную (когда был осознан спрос на грамотных инженеров и переосмыслено понятие грамотности) учебник логики был воссоздан для средней школы.

Впрочем при Хрущеве этот дурацкий предмет отменили! (возможно, осознали, что больший процент населения стал бы видеть нестыковки в газете "Правда"?)

В общем пока попытки вернуть логику ничем не увенчались и идет уменьшение часов математики (другого устаревшего предмета). Как-то так...

Нет, но Goovis специализированные для просмотра фильмов, а Nreal Air это все-таки AR, т.е. полупрозрачный экран. Но интересно было бы посмотреть, конечно)

А как обучать умению отличать реальность от галлюцинации-то? Имейте ввиду, обучение критическому мышлению (в условиях отсутствия кругозора) по опыту идет запредельно туго. А с кругозором, когда школьники не читают и все предметы сведены к угадай-тестам по 4-м из них все сильно просело.

И как обучать-то?

Ну и школа сейчас устроена так, что школьники лучше всего умеют находить готовые решения любых школьных задач, а не учатся их решать. Т.е. навык собственно умения РЕШАТЬ - из массового стал уделом избранных. Которым потом имеет смысл что-то в университете давать (и то не всем). Ну и как вы предлагаете им навыки решения давать, если у них базы (ни в плане знаний, ни в плане навыков) нет? Вот о-о-очень интересно! Статья выше о том, что у студентов туго идет создание алгоритмов в условиях, когда у них нет математической и алгоритмической базы (а они запредельно прокачали умение находить готовые решения).

Как автор на 3 месте в хабе ИИ (после редакторов хабра))) вангую, что умение находить простые готовые решения у AI-помогаек (в т.ч. GitHub Copilot, Amazon CodeWhisperer, Tabnine и десятков новых) в ближайшие годы будет развиваться сильно быстрее, чем у сегодняшних школьников. Вот прогресс Copilot за полгода (причем ДО того, как LLM стали запредельно модными):

Как вы там писали? "Пожалуйста, не пытайтесь заставлять новое поколение учить навыки ушедшего века, они в них более не нуждаются." Вот очень точно сказано. Именно не нуждаются. С огромным интересом слежу за этим соревнованием, в котором современные школьники (и их родители) массово и дружно заранее объявляют неактуальными кучу крайне полезных им навыков, в условиях, когда самый прокачанных их навык очень быстро осваивают LLM. А компании лихорадочно ищут тех, у кого немодные нынче в школьной среде hard skills еще сохранились. Крайне интересно развиваются события! В этом году, похоже, интересно будет юристам. И на этом процесс не закончится.

Очень жду ваших ответов на пару вопросов выше!)

Гм... Как второй автор в хабе AR&VR (после редактора Хабра) даже соглашусь, и что это важно, и что скоро это будет намного сложнее) (по нескольким причинам)

Но... По-моему одного этого навыка мало. Нужно отменить устаревшие навыки ушедшего века. Ок! Отменяем географию, русский, биологию (и далее по списку) и, главное, математику) Заменяем на обучение умению отличать реальность от галлюцинации (кстати, как?) и все? Наверное, еще навыки нужны?

Шикарный комментарий, спасибо! ) Обязательно заберу, если продолжение делать буду!)))

А какие новыки нужны в этом веке? Вы это лучше меня знаете, можете написать?

Да, Георгий мне уже написал)

Про JPEG AI не знал, теперь узнал и очень интересно, как этот проект развивается.

Я думаю у нас осенью будет большой пост на хабре как раз либо с выходом бенчмарка нейросетевых алгоритмов сжатия картинок, либо с выходом датасета нейросетевых артефактов сжатия (у нас два проекта на эту тему идут, результаты которых планируем открывать). Пост про нейросетевые артефакты увеличения изображений и видео был в феврале, кстати.

Случайно потревожили сообщество image compression, не преследуя месса в терминах:) Но познакомиться с вашими исследованиями и поучаствовать в них были бы рады)

Сообщество не спит и реагирует сравнительно оперативно) Самое интересное начнется через некоторое время, когда серьезным станет нейросетевое сжатие видео (ибо актуальность сжатия видео велика). Хотя и картинки получше сжимать актуально (судя по огромному количеству зверски пережатых картинок в телеграм-каналах по крайней мере))) (у меня профдеформация, я не могу на этот ужас смотреть спокойно, ибо сейчас, в 21 веке можно сделать лучше))).

Ровно позавчера (во вторник) записал на тему JPEG AI научно-популярный ролик для канала "Наука Pro", но у них проект на энтузиазме, выложат не сразу.

P.S. Новый заголовок - существенно лучше. И новая КДПВ без отсылки к шакализации JPEG - тоже сильно лучше)

Господа! (Арсений Шахматов, Анастасия Мальцева, Андрей Кузнецов, Денис Димитров)

У вас статья (по крайней мере на данный момент)) названа "«Сжать и не потерять», Или как эффективно кодировать изображения" и на КДПВ - сжатие JPEG, при этом далее судя по всему у вас "сжатие", которое к сжатию изображений (изображенному на КДПВ) не имеет никакого отношения.

Георгий Гайков - один из тех, кто работал над улучшением JPEG AI - нового стандарта сжатия изображений на основе нейросетей вам уже назадавал вопросов в канале, совершенно справедливо заметив, что если у вас сжатие - сравнивайте хотя бы с JPEG, а лучше с JPEG 2000, а лучше с JPEG AI (https://jpeg.org/jpegai/).

А если вы к сжатию изображений в таких терминах никакого отношения не имеете - может лучше подрихтовать заголовок и КДПВ?

А то мы "хотим компактно хранить картинки и восстанавливать их после декодера" (ваша реклама этой статьи) и даже делаем сейчас бенчмарк нейросетевых методов сжатия изображений, но, похоже, не сможем ваш метод туда добавить. А очень хотели бы!)))

Чтобы ясность была - JPEG AI примерно в 3 раза компактнее сжимает картинки, по сравнению с JPEG (при том же визуальном качестве). Его релиз будет примерно через полгода. Если сможете хороший результат показать - это будет крайне круто (даже если не сделаете вклад в стандарт).

С дружеским приветом от compression.ru & videoprocessing.ai

1
23 ...

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Registered
Activity

Specialization

Project Director, Chief Executive Officer (CEO)
Lead