Как стать автором
Обновить

Хакинг метрик качества видео или как с приходом ИИ все становится намного сложнее

Время на прочтение23 мин
Количество просмотров12K
Всего голосов 97: ↑96 и ↓1+95
Комментарии28

Комментарии 28

Самый главный вывод, 1й: "К сожалению, скоро графики метрик качества видео в рекламных материалах компаний будут иметь значение близкое к нулю."

Раз метрикам верить нельзя, то как тогда оценить, какой кодек из уже имеющихся или скоро возникнувших наиболее хорош по соотношению уровень_сжатия/качество? Получается, только брать одно и то же исходное видео, прогонять каждым кодеком, брать из него одни и те же случайные кадры и сравнивать визуально полученные каждым кодеком картинки? Конечно, на последнем этапе можно прикрутить алгоритм на ИИ, который будет делать кроп участков картинки и сравнивать их по пикселизации, яркости, контраста и ещё каким-то объективным показателям, но всё равно добавляет работы каждой компании, которая хочет выбрать кодек для своих нужд.

Раз метрикам верить нельзя, то как тогда оценить, какой кодек из уже имеющихся или скоро возникнувших наиболее хорош по соотношению уровень_сжатия/качество?

В статье есть ответ со слов "Естественно, с этими проблемами можно справляться". Т.е. - сравнение станет намного сложнее, дольше и дороже из-за того, что придется делать независимый анализ на других стримах, с большим количеством метрик и привлечением краудсорса. И у соответствующих отделов компаний будет выбор - делать все это (в каком-то объеме), либо верить рекламным материалам (или инфлюенсерам))). Кстати - в черновиках статья именно про новые кодеки новых стандартов AV1, VVC, AVS3. Рук не хватает закончить.

Получается, только брать одно и то же исходное видео, прогонять каждым кодеком, брать из него одни и те же случайные кадры и сравнивать визуально полученные каждым кодеком картинки?

Да и лучше брать видеофрагменты. Там есть особенности кодеков из-за которых у вас оценка отдельных кадров не будет совпадать с оценкой стрима (часть артефактов маскируется при показе видео), причем эта фича зависит от стандарта, конкретной реализации и особенностей стрима.

Конечно, на последнем этапе можно прикрутить алгоритм на ИИ, который будет делать кроп участков картинки и сравнивать их по каким-то объективным показателям, но всё равно добавляет работы каждой компании, которая хочет выбрать кодек для своих нужд.

Да, все так. Статья, как ни странно, соответствует анонсу, т.е. описан расклад, который с приходом ИИ стал заметно кучерявей. ;)

Раз метрикам верить нельзя, то как тогда оценить, какой кодек из уже имеющихся или скоро возникнувших наиболее хорош по соотношению уровень_сжатия/качество?

Как не совсем знакомый с кухней человек могу предположить, что проблему можно решить случайным лесом с несколькими метриками и хитрой нейронкой, определяющей шум с нескольких кадров для подтверждения вмешательства с целью накрутки метрики.

К сожалению ансамбль метрик не решает, хотя и усложняет взлом. Я эту тему практически не трогал (она большая), но даже определить, что была попытка взлома, если изменения достаточно деликатные - не так просто. Особенно сложно утверждать, что была попытка накрутки, если картинка становится визуально лучше.

Анализ относительного поведения тестируемых методов с использованием нескольких метрик. Суть подхода внешне очень проста: мы начинаем анализировать разницу в поведении нескольких тестируемых продуктов в нескольких метриках.

Может, брать несколько метрик - можно даже нейросетевых - и считать у них медиану по результатам, которая должна быть устойчива к выбросам (в данному случае - к накрутке конкретной метрики)?

Вроде как у вас указано, что оптимизация под несколько метрик крайне затруднительна - как минимум, надо разные паттерны добавлять - так может, правда, запускать по несколько метрик?

Там все интереснее. У вас возможность накрутки разными методами зависит от контента, поэтому отсечение выбросов на выборке может оказаться далеко не лучшей стратегией. )

Сейчас, судя по статьям исследование возможности накрутки по нескольким метрикам активно изучается (как минимум китайцами), поэтому стратегия очевидно должна будет зависеть от их успехов на этом поприще. В общем - классическая "проблема брони и снаряда", причем броня явно будет запаздывать в ближайшие годы (она уже запаздывает).

Вопрос по оценке качества краудсорсингом: не влияет ли на оценку раса, пол, культура, возраст и прочие свойства людей?

Выглядит так, что метрики от краудсорсинга могут быть сильно искажены. Что-то в духе проблемы WEIRD.

)))) Мы в свое время столкнулись с тем, что азиаты, например, существенно менее чувствительны к артефактам 3D, чем европеоиды (отдельная тема почему). Но сильнее продвинуть рынок 3D кино это им помогло.

Ну а вообще к блокингу и бандингу примерно одинаково люди чувствительны, так что для стриминга такой проблемы нет.

о, студентом писал всякий код про сжатие\расжатие картинок, оказывается "Ватолин" - это не абстрактная фамилия вверху очередной научной статьи про PSNR :)

я же правильно понимаю, что

1) прогресс не стоит на месте - и несмотря на все "накрутки", обычные потребители получают всё больше пикселей за всё меньшие деньги (и с всё большей скоростью) ?

2) стеганография получает не просто второе дыхание, а прямо прописывается в "новый дивный" стандарт (и передает сообщение оценке качества) ?

3) жалко нет фотографий артефактов из

свежие нейросетевые алгоритмы обработки видео генерируют такие артефакты, которые ни новые, ни старые метрики не в состоянии ловить

1) прогресс не стоит на месте - и несмотря на все "накрутки", обычные потребители получают всё больше пикселей за всё меньшие деньги (и с всё большей скоростью) ?

Безусловно! ) Речь всего лишь о том, чтобы поменять порядок мировых лидеров в области)))

2) стеганография получает не просто второе дыхание, а прямо прописывается в "новый дивный" стандарт (и передает сообщение оценке качества) ?

Гм... Мы занимались стеганографией в видео, но в свете новых нейросетевых решений пока не думал об этом. В любом случае она точно сильно поменяется.

3) жалко нет фотографий артефактов из

Будут! )

Мы сейчас (для разработки метрик нового поколения) делаем 2 датасета. Первый с артефактами алгоритмов Super-Resolution - там только на гитхабе уже 880 репозиториев SR, причем самые "звездные" - это очевидно прошлые лидеры. А как находить новых автоматически (когда там каждые 2 дня в среднем по новому репозиторию)?.

А второй - с артефактами нейросетевых алгоритмов сжатия картинок (JPEG AI и остальные) - там тоже вопросов много.

И у меня уже есть десятки очень прикольных картинок из этих проектов! У датасета цель - 10000-100000 тысяч примеров, так что там будет много чего эпичного выбрать). На конференциях я их уже показываю)))

Вы главное держите в курсе, чтоб не закончилось как в силиконовой долине😄видео это только начало

Буду стараться)

Картинки сравнения, где красный текст на жёлтом фоне и серфер в море, показывают не улучшение визуального качества, а увеличение локального контраста и насыщенности. На что обычный человек скажет "да, выглядит лучше", но это не имеет ничего общего с кодированием исходного видео. Точно так же люди называют более громкую музыкальную запись - более качественной.

Тут вам математические метрики правду говорят: была добавлена отсебятина и этого не было в исходном файле.

  1. Держите полный исходник (лучше на него кликнуть и посмотреть в увеличенном виде) - там хорошо видно, что это точно не "локальный контраст и насыщенность", а действительно больше исходных деталей (и люди это ценят). И если погрузиться в то, как LCEVC устроен, то понятно, почему свежий стандарт сжимает заметно лучше на глаз, чем HEVC - стандарт 9-летней давности.

  2. Проблема ровно в том, что во многих случаях (и чем дальше, тем их больше) старые метрики штрафуют за правильные контрастные детали, достаточно промахнуться с их положением, например, на полпикселя. Закон больших чисел отражает это расхождение в изменении корреляции метрик с мнением людей.

А у Super-Resolution еще круче - PSNR там по сути поощряет больший блюр (замыливание картинки).

Как-то так, если кратко)

у Super-Resolution еще круче

Именно. К примеру при увеличении портрета подобные алгоритмы дорисовывают отдельные волоски (фотореалистично дорисовывают). Если сравнить попиксельно с оригиналом, то видна очень большая разница, но большинство людей работу Super-Resolution оценят как отличную (потому что сравнивают не попиксельно). Даже текстурные метрики (которые оценивают группы пикселей, текстуры) могут промахнуться, потому как на оригинале (к примеру) волосы под немного другим углом, чуточку другая структура и т.п.

Я про это подробно с примерами рассказывал тут:
https://vtconf.com/talks/f1874e30be274605abb6d0f3c7329940/
В принципе слайды в текст сконвертировать не очень долго, на новогодних есть шанс, если дедлайны конца года без сил не оставят)

там хорошо видно, что это точно не "локальный контраст и насыщенность", а действительно больше исходных деталей

там не больше деталей, там перешарп и артефакты в виде обводки-ауры, этой обводки нет в оригинале, это дефект

так часто делают начинающие фотографы, когда при обработке равов задирают шарп по максимуму, думая, что они так получают больше деталей

а по центру картинка ближе к оригиналу

там не больше деталей, там перешарп и артефакты в виде обводки-ауры

Сделайте, пожалуйста, шарпом из средней картинки правую на бурунах справа от сапборда и на волнах наверху справа от подписи, будет очень интересно посмотреть, что вы сможете вытянуть с вашим опытом

Также из интересного стоит отметить, как неожиданно хорошо выступили на графике выше No-Reference метрики (зеленого цвета). Эти метрики анализируют только сжатый поток, не используя оригинал, поэтому для них предсказывать деградацию качества намного сложнее.

Не очень понимаю, какой вообще смысл подобных оценок в отрыве от исходного видео, причем неважно кто делает эту оценку — человек или алгоритм. Большинство людей (а значит — и обученная на этом датасете нейронка) оценит условную Мону Лизу лучше чем черный квадрат, однако кодек, который будет делать из черного квадрата на исходном видео Мону Лизу после декодирования (а нейронки вполне способны на такую магию) — наверное не очень хороший кодек?

В статье про это было. Не поверите, но No-Reference метрики сейчас крайне востребованы в индустрии и компании платят за разработку и доработку No-Reference и Reduced-Reference под их кейсы (в т.ч. мы такой весьма интересный проект недавно делали). В некоторых случаях нужно проконтролировать поток не имея исходника, либо имея минимальное количество данных. Например (самый простой случай), значение No-Reference метрики для этого сэмпла сразу после сжатия. В итоге с 1 числом на сцену мы знаем, что происходит у потребителя (точнее знаем, когда у него что-то не то началО происходить. А зная наиболее частые проблемы и имея NR метрики на эти артефакты мы и о том, что происходит, представление получим. Для тех, кто хочет быть лучше конкурентов, это важно. Я бы даже сказал критично. Хотя компаний, ориентирующихся на отчеты службы поддержки тоже хватает, конечно))) Я не буду говорить сколько, например, среди отечественных онлайн-кинотеатров каких из них)))

Попробую предложить свое объяснение, попроще.

Вы когда видите артефакты сжатия в JPEG, вы же можете их распознать с большой достоверностью, хотя исходным несжатым изображением вы не обладаете. Человек с наметанным глазом может, не раскладывая такой JPEG и не изучая содержимое Chroma-канала сказать, какой там subsampling - 4:4:4 или 4:2:2. Или поругать какой-нибудь Olympus за то, что они OOC JPEG делают из RAW, предварительно натравив на него median-фильтр. А глянув на гистограмму - еще и за "фальшивые" значения ISO, получаемые домножением отсчетов.

Вот так и NR ищет не сравнительные признаки, а абсолютные признаки.

Именно так! Спасибо за хороший пример на картинках.

С точки зрения теории когнитивных процессов - NR-тесты - это форма абстрактных операций (декомпозиция, анализ), а R-тесты - конкретно-предметных (сравнение, ассоциация).

Как естественное продолжение сказанного, напрашивается подход с генерацией (тем или иным способом) нескольких тестовых наборов, имитирующих разные типы контента, но с условием случайной мутации как самих сэмплов, так и применяемых метрик (в некотором небольшом диапазоне), направленных на отдельные свойства.

Абсолютно верное направление мысли. В JPEG AI, например, где проблема заточки под датасет остра как никогда по сути в этом направлении и двигаются. Мы в сравнении кодеков также начали случайным образом менять часть датасета ежегодно уже больше 10 лет назад.

В пределе - каждый новый тест - это тест всего сравниваемого (с контрольным пересечением с чем-то, что не входит в сравнение, но может использоваться для валидации сэмплов) на полностью новом наборе.

При этом, конечно, возникает занятный вопрос из области совершенно законного (а не шаманско-мошеннического) применения ML - качественная эмуляция свойств (дефектов) видеоизображения разного происхождения на материале, который генерируется, например, игровым движком по сценарию, который можно подвергать мутации.

У вас нормальный вопрос был) (судя по тому, что мне Хабр на почту прислал))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации