maybe_elf 29 янв 2024 в 11:27

В России разработали алгоритм сжатия видео с помощью нейросетей

2 мин

8.2K

Работа с видео*Патентование*Искусственный интеллект

+13

Комментарии 30

GennPen 29 янв 2024 в 11:37

По его словам, исходный файл высокого разрешения трансформируется в скетч-видео, в котором разрешение становится ниже, сам ролик превращается в чёрно-белый, а исходные метаданные записываются отдельно

И картинка будет такая же пластилиновая, как сейчас если смотреть SD телевидение на 4K телевизоре с апскейлом?

GennPen 29 янв 2024 в 12:57

Кстати, они не первые кто додумался использовать апскейл с нейросеткой. Nvidia уже внедрила апскейл видео с использованием нейросетки в свои драйвера. И работает очень даже хорошо, 360p видео хорошо восстанавливается увеличивая разрешение и убирая артефакты низкого битрейта. Но картинка все равно получается довольно пластилиновой.

Hidden text

MiyuHogosha 30 янв 2024 в 14:49

Апскейл с использованием нейросеть-подобного dsp неновость более 15 лет.

Вопрос в том, что в данном случае результат раскодирования ничего не имеет общего с оригиналом. Это продукт "фантазии"

GennPen 30 янв 2024 в 17:56

в данном случае результат раскодирования ничего не имеет общего с оригиналом

Как и все остальные методы кодирования с потерями, которые буквально обманывают слушателя/наблюдателя, выдавая желаемое за действительное.

Neusser 29 янв 2024 в 11:46

Следующий шаг - скармливать нейросети описание фильма из википедии, пусть сама кино генерирует.

gro 29 янв 2024 в 11:53

Нейросеть смотрит фильм - описывает его словами, при просмотре по описанию генерирует.

RichardMerlock 29 янв 2024 в 12:34

Старая шутка про новый видеокодек и Санта-Барбару становится реальностью.

Squoworode 29 янв 2024 в 20:43

Старая шутка про новый видеокодек и Санта-Барбару

Напомнило анекдот про тех, кто ссылается на анекдот, но не даёт его полный текст, и отдельные котлы...

easyman 30 янв 2024 в 19:12

@RichardMerlock напишите уже её!

RichardMerlock 31 янв 2024 в 10:02

А всё, не найти концов, умерла с башоргом. Идея была в том, что бесконечный сериал Санта-Барбару удалось сжать очень сильно.

McStar 29 янв 2024 в 14:19

Это у Яндекса вроде есть уже.

m16n32 29 янв 2024 в 12:17

Руслан Пермяков говорит, что в основе существующих кодеков лежит принцип кодирования с целью уменьшения количества данных.

В основе большинства проприетарных существующих кодеков лежит принцип наживы.

almirus 29 янв 2024 в 12:20

О, не прошло и 3х недель

https://habr.com/ru/news/785708/comments/#comment_26366170

sabirovrinat85 29 янв 2024 в 16:41

хм, а где ссылка на материалы для сравнения? недавно Дюну. Часть 1 сжал в AV1, исходник сугубо видеовидеопоток BD 4K h256 весил более 60ГБ, конвертировал в 2560 по горизонтали, сохранив HDR10+, видеопоток вышел 1.1ГБ, отличия вижу только из-за разницы в разрешении, все малейшие детали во всех сценах сохранились, ИИ из 1ГБ сможет воссоздать настолько то, что в H265 весит в 30-50 раз больше? если да, поздравляю с удачей, но всё равно не нужно, если классический способ достаточен.

vaslobas 29 янв 2024 в 19:00

Как-то очень подозрительно хороший результат получился. Из 60 гигов в 1 гиг без заметной потери качества.

almirus 29 янв 2024 в 20:39

Давайте сравним https://www.diffchecker.com/image-compare/

sabirovrinat85 29 янв 2024 в 21:47

через VLC сделал скриншоты в PNG, на дифчекере из-за разницы разрешений сведение до отражения отличий показывало ломаную картину. Скрин со сжатого в AV1 видео был в разрешении 2560х1439 почему-то, а скриншот с оригинального видео пришлось изменить до 2560х1440 ровно. В итоге нижняя полоска при сведении в один пиксель толщиной как разницу показывает, самый край зубов у актера, и совсем немножко на линиях между шарфом-повязкой и шеей. Нарочно подобрал кадр, где близко лицо и одежда полная деталей, там человек близко в кадре укутан чем-то, напоминающим кучу марлевых повязок, длинные растрепанные волосы.

Со слайдером я вижу ту разницу, которую говорил, в 4К было разумеется побольше деталей, которые неизбежно подрастерялись, но незначительно, при изменении размера кадра в меньшую сторону

оригинальный 3840х2160 справа, сжатый 2560х1072 слева

разница между 2560х1440 измененным скрином оригинала и 2560х1439 скрина сжатого видео

fedorro 30 янв 2024 в 21:50

А можете поделиться софтом\конфигами для повторения эксперимента?, мне очень любопытно ?

sabirovrinat85 30 янв 2024 в 22:24

Примерно так, точно не вспомню:

Кодирование видеопотока (crf 18 из-за стремления сохранить максимум качества, обычно в AV1 кодирую от 20 до 28, сравнивал разницу между 18 и 19, она есть. Желательно preset делать равным 3, но у меня не очень мощный процессор, обошелся 4):

nice -n 15 ffmpeg -i Дюна.2021.Hybrid.UHD.Blu-Ray.Remux.2160p.mkv -vf scale=2560:1072 -c:v libsvtav1 -crf 18 -preset 4 -g 120 -svtav1-params tune=0:film-grain-denoise=0:film-grain=10:enable-overlays=1:scd=1:scm=2:transfer-characteristics=16:matrix-coefficients=10:color-primaries=9 -pix_fmt yuv420p10le -an Dune_crf18_preset4_g120_grain10.mkv

Извлёк сначала звуковую дорожку через MKVToolNix (хотя можно было и сразу), она была в 5.1(side), поэтому произвел манипуляции с порядком каналов (но тут мог и ошибиться)

Копирую видео из полученного файла на шаге 1, аудио из шага 2 и забрал субтитры из оригинального файла, сконвертировав их в формат webvtt, на выходе медиафайл в контейнере webm

nice -n 15 ffmpeg -i Dune_crf18_preset4_g120_grain10.mkv -i Dune-opus-6c-192.opus -i Дюна.2021.Hybrid.UHD.Blu-Ray.Remux.2160p.mkv -map 0:v -c:v copy -map 1:a -c:a copy -map 2:10 -c:s webvtt Dune_av1.webm

Единственное, можно было бы приподнять гамму сразу, очень темный фильм в оригинале кажется стал чуточку ещё темнее, притом без потери деталей.

almirus 30 янв 2024 в 23:30

ffmpeg умеет парсить HDR10+?

sabirovrinat85 2 фев 2024 в 15:39

AV1 как формат сам по себе умеет и в HDR10+ и в DolbyVision, svt-av1 как заявлено, поддерживает HDR10+, но на практике реализации пока не нашёл, надежда на dovi_tool и hdr10plus_tool. Я ошибся, говоря, что AV1 кодировал в HDR10+, это проделывал с кодеком x265 (вроде), только в HDR10 (которое обычно идёт отдельным "слоем" рядом с материалом в DolbyVision)

sabirovrinat85 2 фев 2024 в 15:31

небольшое исправление/дополнение к первому пункту, нашёл в истории bash использованную команду, matrix-coefficients был равен 9, была включена поддержка hdr, и указаны параметры mastering-display исходя из оригинала (в интернете лежит скрипт ffmpeghdr.py чтобы получить строку параметров для x265 и svt-av1):

:enable-hdr=1:matrix-coefficients=10:mastering-display=G(0.265,0.69)B(0.15,0.06)R(0.68,0.32)WP(0.3127,0.329)L(4000.0,0.005):content-light=1804,501

dimka11 29 янв 2024 в 16:45

С момента появления автоенкодеров было интересно, почему они не получили широкое распространение в задачах сжатия данных. С тех пор прошло много времени и ничего особо не поменялось.

MiyuHogosha 30 янв 2024 в 14:54

Почему не нашли? Как по вашему устроены чипы матриц мощных камер или профессиональное воспроизводящее оборудование. Или ряд радарных систем и систем распознавания. Вопрос в том что нейросеть там реализована аппаратно и то все строго хранимые секреты