Comments 38
Самый главный вывод, 1й: "К сожалению, скоро графики метрик качества видео в рекламных материалах компаний будут иметь значение близкое к нулю."
Раз метрикам верить нельзя, то как тогда оценить, какой кодек из уже имеющихся или скоро возникнувших наиболее хорош по соотношению уровень_сжатия/качество? Получается, только брать одно и то же исходное видео, прогонять каждым кодеком, брать из него одни и те же случайные кадры и сравнивать визуально полученные каждым кодеком картинки? Конечно, на последнем этапе можно прикрутить алгоритм на ИИ, который будет делать кроп участков картинки и сравнивать их по пикселизации, яркости, контраста и ещё каким-то объективным показателям, но всё равно добавляет работы каждой компании, которая хочет выбрать кодек для своих нужд.
Раз метрикам верить нельзя, то как тогда оценить, какой кодек из уже имеющихся или скоро возникнувших наиболее хорош по соотношению уровень_сжатия/качество?
В статье есть ответ со слов "Естественно, с этими проблемами можно справляться". Т.е. - сравнение станет намного сложнее, дольше и дороже из-за того, что придется делать независимый анализ на других стримах, с большим количеством метрик и привлечением краудсорса. И у соответствующих отделов компаний будет выбор - делать все это (в каком-то объеме), либо верить рекламным материалам (или инфлюенсерам))). Кстати - в черновиках статья именно про новые кодеки новых стандартов AV1, VVC, AVS3. Рук не хватает закончить.
Получается, только брать одно и то же исходное видео, прогонять каждым кодеком, брать из него одни и те же случайные кадры и сравнивать визуально полученные каждым кодеком картинки?
Да и лучше брать видеофрагменты. Там есть особенности кодеков из-за которых у вас оценка отдельных кадров не будет совпадать с оценкой стрима (часть артефактов маскируется при показе видео), причем эта фича зависит от стандарта, конкретной реализации и особенностей стрима.
Конечно, на последнем этапе можно прикрутить алгоритм на ИИ, который будет делать кроп участков картинки и сравнивать их по каким-то объективным показателям, но всё равно добавляет работы каждой компании, которая хочет выбрать кодек для своих нужд.
Да, все так. Статья, как ни странно, соответствует анонсу, т.е. описан расклад, который с приходом ИИ стал заметно кучерявей. ;)
Раз метрикам верить нельзя, то как тогда оценить, какой кодек из уже имеющихся или скоро возникнувших наиболее хорош по соотношению уровень_сжатия/качество?
Как не совсем знакомый с кухней человек могу предположить, что проблему можно решить случайным лесом с несколькими метриками и хитрой нейронкой, определяющей шум с нескольких кадров для подтверждения вмешательства с целью накрутки метрики.
К сожалению ансамбль метрик не решает, хотя и усложняет взлом. Я эту тему практически не трогал (она большая), но даже определить, что была попытка взлома, если изменения достаточно деликатные - не так просто. Особенно сложно утверждать, что была попытка накрутки, если картинка становится визуально лучше.
Анализ относительного поведения тестируемых методов с использованием нескольких метрик. Суть подхода внешне очень проста: мы начинаем анализировать разницу в поведении нескольких тестируемых продуктов в нескольких метриках.
Может, брать несколько метрик - можно даже нейросетевых - и считать у них медиану по результатам, которая должна быть устойчива к выбросам (в данному случае - к накрутке конкретной метрики)?
Вроде как у вас указано, что оптимизация под несколько метрик крайне затруднительна - как минимум, надо разные паттерны добавлять - так может, правда, запускать по несколько метрик?
Там все интереснее. У вас возможность накрутки разными методами зависит от контента, поэтому отсечение выбросов на выборке может оказаться далеко не лучшей стратегией. )
Сейчас, судя по статьям исследование возможности накрутки по нескольким метрикам активно изучается (как минимум китайцами), поэтому стратегия очевидно должна будет зависеть от их успехов на этом поприще. В общем - классическая "проблема брони и снаряда", причем броня явно будет запаздывать в ближайшие годы (она уже запаздывает).
)))) Мы в свое время столкнулись с тем, что азиаты, например, существенно менее чувствительны к артефактам 3D, чем европеоиды (отдельная тема почему). Но сильнее продвинуть рынок 3D кино это им помогло.
Ну а вообще к блокингу и бандингу примерно одинаково люди чувствительны, так что для стриминга такой проблемы нет.
о, студентом писал всякий код про сжатие\расжатие картинок, оказывается "Ватолин" - это не абстрактная фамилия вверху очередной научной статьи про PSNR :)
я же правильно понимаю, что
1) прогресс не стоит на месте - и несмотря на все "накрутки", обычные потребители получают всё больше пикселей за всё меньшие деньги (и с всё большей скоростью) ?
2) стеганография получает не просто второе дыхание, а прямо прописывается в "новый дивный" стандарт (и передает сообщение оценке качества) ?
3) жалко нет фотографий артефактов из
свежие нейросетевые алгоритмы обработки видео генерируют такие артефакты, которые ни новые, ни старые метрики не в состоянии ловить
1) прогресс не стоит на месте - и несмотря на все "накрутки", обычные потребители получают всё больше пикселей за всё меньшие деньги (и с всё большей скоростью) ?
Безусловно! ) Речь всего лишь о том, чтобы поменять порядок мировых лидеров в области)))
2) стеганография получает не просто второе дыхание, а прямо прописывается в "новый дивный" стандарт (и передает сообщение оценке качества) ?
Гм... Мы занимались стеганографией в видео, но в свете новых нейросетевых решений пока не думал об этом. В любом случае она точно сильно поменяется.
3) жалко нет фотографий артефактов из
Будут! )
Мы сейчас (для разработки метрик нового поколения) делаем 2 датасета. Первый с артефактами алгоритмов Super-Resolution - там только на гитхабе уже 880 репозиториев SR, причем самые "звездные" - это очевидно прошлые лидеры. А как находить новых автоматически (когда там каждые 2 дня в среднем по новому репозиторию)?.
А второй - с артефактами нейросетевых алгоритмов сжатия картинок (JPEG AI и остальные) - там тоже вопросов много.
И у меня уже есть десятки очень прикольных картинок из этих проектов! У датасета цель - 10000-100000 тысяч примеров, так что там будет много чего эпичного выбрать). На конференциях я их уже показываю)))
Картинки сравнения, где красный текст на жёлтом фоне и серфер в море, показывают не улучшение визуального качества, а увеличение локального контраста и насыщенности. На что обычный человек скажет "да, выглядит лучше", но это не имеет ничего общего с кодированием исходного видео. Точно так же люди называют более громкую музыкальную запись - более качественной.
Тут вам математические метрики правду говорят: была добавлена отсебятина и этого не было в исходном файле.

Держите полный исходник (лучше на него кликнуть и посмотреть в увеличенном виде) - там хорошо видно, что это точно не "локальный контраст и насыщенность", а действительно больше исходных деталей (и люди это ценят). И если погрузиться в то, как LCEVC устроен, то понятно, почему свежий стандарт сжимает заметно лучше на глаз, чем HEVC - стандарт 9-летней давности.
Проблема ровно в том, что во многих случаях (и чем дальше, тем их больше) старые метрики штрафуют за правильные контрастные детали, достаточно промахнуться с их положением, например, на полпикселя. Закон больших чисел отражает это расхождение в изменении корреляции метрик с мнением людей.
А у Super-Resolution еще круче - PSNR там по сути поощряет больший блюр (замыливание картинки).
Как-то так, если кратко)
у Super-Resolution еще круче
Именно. К примеру при увеличении портрета подобные алгоритмы дорисовывают отдельные волоски (фотореалистично дорисовывают). Если сравнить попиксельно с оригиналом, то видна очень большая разница, но большинство людей работу Super-Resolution оценят как отличную (потому что сравнивают не попиксельно). Даже текстурные метрики (которые оценивают группы пикселей, текстуры) могут промахнуться, потому как на оригинале (к примеру) волосы под немного другим углом, чуточку другая структура и т.п.
Я про это подробно с примерами рассказывал тут:
https://vtconf.com/talks/f1874e30be274605abb6d0f3c7329940/
В принципе слайды в текст сконвертировать не очень долго, на новогодних есть шанс, если дедлайны конца года без сил не оставят)
там хорошо видно, что это точно не "локальный контраст и насыщенность", а действительно больше исходных деталей
там не больше деталей, там перешарп и артефакты в виде обводки-ауры, этой обводки нет в оригинале, это дефект
так часто делают начинающие фотографы, когда при обработке равов задирают шарп по максимуму, думая, что они так получают больше деталей
а по центру картинка ближе к оригиналу
там не больше деталей, там перешарп и артефакты в виде обводки-ауры
Сделайте, пожалуйста, шарпом из средней картинки правую на бурунах справа от сапборда и на волнах наверху справа от подписи, будет очень интересно посмотреть, что вы сможете вытянуть с вашим опытом
я говорю, что такие же артефакты бывает от перешарпа, это не значит, что можно сделать один-в-один простым шарпом, все-таки это разные алгоритмы сжатия
а вы сами не видите, что там есть обводка, которой нету в оригинале? добавление несуществующего, это очевидный дефект, даже если визуально кажется красиво, цель алгоритма сжатия – точно передать оригинал, а не сделать красиво
просто это известный и дешевый способ сделать изображение более "вкусным" для глаза, попробуйте запостить ваш пример на форуме фотографов, и спросите где ближе к оригиналу, результат вас удивит)


я говорю, что такие же артефакты бывает от перешарпа, это не значит, что можно сделать один-в-один простым шарпом, все-таки это разные алгоритмы сжатия
Новые детали есть или нет?
Я утверждал, что стало больше деталей, вы "там не больше деталей".
А что до oversharpening, то как разработчик алгоритмов обработки могу только констатировать, что его ЦЕЛЕНАПРАВЛЕННО заказывает бизнес (и раньше и в прямо в одном из текущих наших проектов), по причине того, что люди массово это любят (увы!). Сохранение деталей при этом идет своим (очень непростым) путем (почти не пересекаясь). Ибо люди любят красиво, а не точно (сейчас с JPEG AI это будет очень явно).
Ну и если вы внимательно прочитаете саму статью, то (внезапно) обнаружите, что овершарп любят не только люди, но и новые модные объективные метрики (по понятным причинам - они обучаются на данных, размеченных людьми). Это значит, что новые AI алгоритмы будут заточены на легкий овершарп при обучении по этим метрикам.
Прям не знаю, каково вам будет жить с вашей позицией в ближайшем прекрасном нейросетевом будущем)
Новые детали есть или нет?
смотря что этим называть, я выше показал пример шарпа и перешарпа, там тоже есть "новые детали", но они не новые, они уже были в оригинале, их только выделили
Я утверждал, что стало больше деталей, вы "там не больше деталей".
опять же, что значит больше деталей? артефакты в виде обводки – это тоже "детали", но их нету в оригинале,
добавление деталей которых не было – это очевидный вред для исходника, алгоритм должен максимально точно передать оригинал, а не придумать кучу новых деталей
вы пишите "для людей справа лучше, для старых метрик справа хуже" – я человек и для меня справа хуже)
и если спросите людей, кто профессионально работают с пост-обработкой, то уверен, что большинство скажут так же
модные объективные метрики (по понятным причинам - они обучаются на данных, размеченных людьми).
если они обучены на "данных размеченных людьми", а не на объективных отличиях от оригинала – то их уже можно не называть объективными метриками)
алгоритм должен максимально точно передать оригинал, а не сделать красивую картинку
Прям не знаю, каково вам будет жить с вашей позицией в ближайшем прекрасном нейросетевом будущем)
уверен, для профессионалов мало что поменяется, например в телефонах от Самсунг уже очень давно есть нейросетевые "улучшайзеры" фото, вплоть до того, что они рисуют Луну со всеми кратерами из простого пятна на черном фоне, но профессионалы таким софтом не пользуются,
поэтому не думаю, что в проф кодеки и форматы будут встраивать такие форматы сжатия, которые делают красивую картинку для среднего потребителя, но ценой искажений оригинала
смотря что этим называть, я выше показал пример шарпа и перешарпа, там тоже есть "новые детали", но они не новые
Сдаюсь)
У меня точно не получится вас в чем-то убедить.
Но просто имейте ввиду, что рядом, в параллельной вселенной сейчас бурно развиваются алгоритмы ВОССТАНОВЛЕНИЯ разрешения, которые восстанавливают больше деталей. Вот картинка из наших работ:

Больше деталей в этой статье https://habr.com/ru/articles/716706/
Хотя и про нее можно сказать, что это все было в исходном изображении при большом желании )))) (правда в том, что оно было в исходном видео, причем извлечь эту информацию оттуда из временного домена крайне нетривиально).
если они обучены на "данных размеченных людьми", а не на объективных отличиях от оригинала – то их уже можно не называть объективными метриками) алгоритм должен максимально точно передать оригинал, а не сделать красивую картинку
Интересная мысль. По метрикам выходит порядка 3000 статей в год. Похоже, что все их авторы ошибаются, обучая и валидируя результаты на датасетах, размеченных людьми)
Возможно, вам стоит их наставить на путь истинный. Начать эффективнее всего отсюда с лучших:
https://paperswithcode.com/task/video-quality-assessment
https://paperswithcode.com/task/image-quality-assessment
Там ссылки на топовые в бенчмарках метрики и их код на гитхабе. Стоит им в issues написать, как надо правильно делать топовые метрики)))
Ну либо вам надо им обьяснить, что objective image quality metric - это неверный термин. А то scholar два миллиона статей выдает...
уверен, для профессионалов мало что поменяется, например в телефонах от Самсунг уже очень давно есть нейросетевые "улучшайзеры" фото, вплоть до того, что они рисуют Луну со всеми кратерами из простого пятна на черном фоне, но профессионалы таким софтом не пользуются
Вы не поверите) В комментариях к моей старой статье про улучшение разрешения внезапно обсуждают использование SR в астрономии (где он используются уже лет 20), в точности для того, чтобы сделать много снимков, а потом получить итоговый снимок лучшего качества. Поэтому начиная с какого-то времени практически нереально стало встретить снимок от профессиональных астрономов, который не прошел бы через профессиональные алгоритмы восстановления разрешения, снижения шумов, восстановления динамического диапазона и т.д. Причем даже любители сейчас на такой софт постепенно переползают (даже на хабре статью про это видел). Там есть свои приколы, но в целом разница в качестве огромна. Возможно, вам стоит отговорить их от этого ненужного прогресса))) В конце концов не только их деды, но даже отцы такого себе не позволяли)
поэтому не думаю, что в проф кодеки и форматы будут встраивать такие форматы сжатия, которые делают красивую картинку для среднего потребителя, но ценой искажений оригинала
(тяжело вздохнув) Не думайте. Но скоро вы не сможете купить ни один телевизор. Причем чем более топовым и дорогим он будет, тем меньше шансов (поскольку более навороченные алгоритмы будут использоваться).
С телефонами все то же самое.
Надеюсь написать статью про JPEG AI (который уже на финишной и в комитет по стандартизации которого мне посчастливилось попасть), там тема красоты уходит куда-то за край даже на мой ко многому привычный взгляд.
выглядит так (для людей справа лучше, для старых метрик справа хуже): Источник: Наши исследования нового стандарта, на которых хорошо видна неадекватность старых метрик
и кстати, Eyevinn Technology вот тут пишут, что LCEVC визуально для людей как раз хуже, чем HEVC) при одинаковых объективных метриках
то есть у них ровно противоположное мнение, чем что вы пишите
VMAF measurements showed impressive bitrates saving for the same visual qualitty (as measured by VMAF) compared to native x265. However we found the subjective visual quality produced by LCEVC to be slightly below that produced by x265 for the same VMAF score, so in real world use-cases the bitrate savings may not be as large as indicated by the VMAF measurements.
как видите, ваши "объективные метрики, обученные на данных размеченных людьми", не такие уж и объективные)
и у других людей, кто профессионально занимаются решениями для стриминга, внезапно, другие субъективные оценки качества, чем у вас
и кстати, Eyevinn Technology вот тут пишут, что LCEVC визуально для людей как раз хуже, чем HEVC) при одинаковых объективных метриках
то есть у них ровно противоположное мнение, чем что вы пишите
А где именно пишут, простите?)
Ну и написать такое большого ума не надо. Какие реализации LCEVC и HEVC сравниваются?

На картинке выше со штриховкой - открытые реализации (часто опенсорсные), а плотным цветом - приватные. Поскольку написание кодека - это (внезапно) довольно долгая и дорогая история, то опенсорсные реализации по качеству на приличный уровень выходят сильно не сразу.
Что, естественно, не мешает брать какой-нибудь xin26x (VVC) и радостно писать - мы тут замерили и этот ваш VVC - полное говно по сравнению с AV1 (от libaom) - дает файлы почти в 2 раза больше по размеру при том же качестве!!! (ну или мы тут HEVC (SVT-HEVC) с AVC (x264) сравнили, HEVC полной фигней оказался - всего на 2% лучше). При этом реальная картина, самую малость отличается))) Примерно полностью)
Причем в реальной жизни так и делают (если отчет инвесторам горит или хайпа ради). Даже крупные компании иногда. Я про это подробно писал в статье Уличная магия сравнения кодеков. Раскрываем секреты.
Больше профессиональных примеров метрик и сравнений в этом интервью.
и у других людей, кто профессионально занимаются решениями для стриминга, внезапно, другие субъективные оценки качества, чем у вас
Вы не поверите, но у меня основной доход (внезапно) раньше был от производителей телевизоров, а дальше - от разработчиков кодеков и решения для стриминга и видеоконференций)
Причем после выхода нашего самого известного бенчмарка метрик качества видео (датасет для которого мы собирали 5 лет), написали даже YouTube Media Algorithm Team (презрев санкции и предложив сотрудничать))). Но улучшать решения стриминга Google, Intel, NVIDIA, Huawei, ByteDance (TikTok), Alibaba, Tencent и далее по списку мы помогаем (список не полный, первым - раньше, остальным сейчас).
В общем - про другие оценки - это вы прям хорошо попали) Выше интервью, кстати, на портале StreamingMedia. Вы можете внимательно изучить их портал, у каких еще лабораторий университетов они берут интервью и вообще сколько таких в мире) Мы не единственные, конечно, кто так плотно работает с индустрией, но таких немного, скажу я вам.
На paperswithcode наши бенчмарки, внезапно, в топе в задачах Video Quality Assessment и Image Quality Assessment (что значит, что мы протестировали больше всех опенсорсных реализаций метрик). При этом у нас раскрыты (опубликованы) не все работы, часть продается компаниям. Увы, финансирование науки в России не фонтан, поэтому мы много занимаемся вещами, которые наиболее полезны компаниям, причем в первую очередь западным (последние 2 года - восточным) поскольку они платят заметно больше отечественных.
А что до oversharpening, то как разработчик алгоритмов обработки могу только констатировать, что его ЦЕЛЕНАПРАВЛЕННО заказывает бизнес
Ох и как же это бесит, особенно когда этот шарпинг нельзя отключить. Я даже встречал монитор (вроде какой-то лось) с неотключаемым шарпингом (можно было только уменьшить, но даже на минимуме все равно шарпил).
Ох и как же это бесит, особенно когда этот шарпинг нельзя отключить. Я даже встречал монитор (вроде какой-то лось) с неотключаемым шарпингом (можно было только уменьшить, но даже на минимуме все равно шарпил).
Люто плюсую!
У меня профдеформация - я просто глазами вижу косяки в видео (и на экранах) и часто понимаю, какой алгоритм их дает.
Очень частая картина - маркетинг "продает" увеличение цифр - типа 4К телевизор (конечно!) круче 2К, а 200 FPS - в два раза (не меньше!) лучше, чем 100 FPS. И пипл это хавает. А дальше начинается жесть, когда у вас характеристики матрицы таковы, что вы НЕ МОЖЕТЕ отключить алгоритмы повышения разрешения и увеличения частоты - они у вас должны быть (там есть нюансы, но в целом...). А дальше прикол, в том, что алгоритмы не могут не давать косяки в некоторых случаях. Например, преобразование частоты кадров сбоит на некоторых границах и т.п.
А еще требование бизнеса - чтобы себестоимость девайса была низкой и туда при отличной матрице ставится чип, который просто по производительности не вывозит нормальные алгоритмы. На результат я не могу смотреть без слез. Но... ЛЮДИ ЭТО ПОКУПАЮТ! Мне это непонятно, но это факт, к великому сожалению...
А увеличение резкости, кстати, прямо в кодек вставляют сейчас (причем в енкодер). Мы сейчас с одной крупной транснациональной компанией на эту тему работаем. И пока у вас картинка идет на смарфон - все норм (и даже лучше становится), но когда тот же поток идет на телевизор (особенно дешевый) - идет дикий (кровь из глаз) овершарп.
Так выглядят гримасы прогресса через призму охрененно эффективного бизнеса... (это я подбирая слова)
типа 4К телевизор (конечно!) круче 2К
Особенно когда процессор этого ТВ физически не может родить 4К видеопоток, по этому там между ним и матрицей стоит апскейлер.
а 200 FPS - в два раза (не меньше!) лучше, чем 100 FPS
А особенно когда там стоит какая-нибудь VA матрица, с реальным, а не маркетологическим (там нарисуют 1мс), откликом этак в 20 мс, и смаз видно уже на 60 фпс.
когда у вас характеристики матрицы таковы, что вы НЕ МОЖЕТЕ отключить алгоритмы повышения разрешения и увеличения частоты - они у вас должны быть (там есть нюансы, но в целом...)
Что за особенности такие (если это конечно не апскейлер, как выше в моем сообщении)? Картинка скейлится билинейкой или еще чем, а в частоте какая проблема - обновляй картинку по мере поступления, или переключи частоту на частоту видео, или кратную ей.
Особенно когда процессор этого ТВ физически не может родить 4К видеопоток, по этому там между ним и матрицей стоит апскейлер.
Все так.
Что за особенности такие (если это конечно не апскейлер, как выше в моем сообщении)? Картинка скейлится билинейкой или еще чем, а в частоте какая проблема - обновляй картинку по мере поступления, или переключи частоту на частоту видео, или кратную ей.
Хороший вопрос к профильным инженерам, но лично видел телевизор Sony с заявленными 200 FPS, который зачем-то пытался делать их из потока с меньшей частотой и заметно мылил картинку из-за этого (точнее там было 2 проблемы - мыло на мелких текстурах, на которых плохо ловится движение - листва, трава, мех, песок и т.п. + характерные артефакты на границе быстро движущихся объектов - которые особенно хорошо видны, когда камера следит за обьектом, он в фокусе, а фон сравнительно быстро сдвигается).
Вопрос, зачем они это сделали, не дает мне покоя)
Также из интересного стоит отметить, как неожиданно хорошо выступили на графике выше No-Reference метрики (зеленого цвета). Эти метрики анализируют только сжатый поток, не используя оригинал, поэтому для них предсказывать деградацию качества намного сложнее.
Не очень понимаю, какой вообще смысл подобных оценок в отрыве от исходного видео, причем неважно кто делает эту оценку — человек или алгоритм. Большинство людей (а значит — и обученная на этом датасете нейронка) оценит условную Мону Лизу лучше чем черный квадрат, однако кодек, который будет делать из черного квадрата на исходном видео Мону Лизу после декодирования (а нейронки вполне способны на такую магию) — наверное не очень хороший кодек?
В статье про это было. Не поверите, но No-Reference метрики сейчас крайне востребованы в индустрии и компании платят за разработку и доработку No-Reference и Reduced-Reference под их кейсы (в т.ч. мы такой весьма интересный проект недавно делали). В некоторых случаях нужно проконтролировать поток не имея исходника, либо имея минимальное количество данных. Например (самый простой случай), значение No-Reference метрики для этого сэмпла сразу после сжатия. В итоге с 1 числом на сцену мы знаем, что происходит у потребителя (точнее знаем, когда у него что-то не то началО происходить. А зная наиболее частые проблемы и имея NR метрики на эти артефакты мы и о том, что происходит, представление получим. Для тех, кто хочет быть лучше конкурентов, это важно. Я бы даже сказал критично. Хотя компаний, ориентирующихся на отчеты службы поддержки тоже хватает, конечно))) Я не буду говорить сколько, например, среди отечественных онлайн-кинотеатров каких из них)))
Попробую предложить свое объяснение, попроще.
Вы когда видите артефакты сжатия в JPEG, вы же можете их распознать с большой достоверностью, хотя исходным несжатым изображением вы не обладаете. Человек с наметанным глазом может, не раскладывая такой JPEG и не изучая содержимое Chroma-канала сказать, какой там subsampling - 4:4:4 или 4:2:2. Или поругать какой-нибудь Olympus за то, что они OOC JPEG делают из RAW, предварительно натравив на него median-фильтр. А глянув на гистограмму - еще и за "фальшивые" значения ISO, получаемые домножением отсчетов.
Вот так и NR ищет не сравнительные признаки, а абсолютные признаки.
Как естественное продолжение сказанного, напрашивается подход с генерацией (тем или иным способом) нескольких тестовых наборов, имитирующих разные типы контента, но с условием случайной мутации как самих сэмплов, так и применяемых метрик (в некотором небольшом диапазоне), направленных на отдельные свойства.
Абсолютно верное направление мысли. В JPEG AI, например, где проблема заточки под датасет остра как никогда по сути в этом направлении и двигаются. Мы в сравнении кодеков также начали случайным образом менять часть датасета ежегодно уже больше 10 лет назад.
В пределе - каждый новый тест - это тест всего сравниваемого (с контрольным пересечением с чем-то, что не входит в сравнение, но может использоваться для валидации сэмплов) на полностью новом наборе.
При этом, конечно, возникает занятный вопрос из области совершенно законного (а не шаманско-мошеннического) применения ML - качественная эмуляция свойств (дефектов) видеоизображения разного происхождения на материале, который генерируется, например, игровым движком по сценарию, который можно подвергать мутации.
Del
Хакинг метрик качества видео или как с приходом ИИ все становится намного сложнее