cdnnow-team 10 июл 2024 в 16:22

GPU-ускорение FFmpeg. Видите прибавку в скорости? И я нет. А она должна быть…

10 мин

11K

Блог компании cdnnowВеб-разработка*Тестирование IT-систем*Работа с видео*Компьютерное железо

+25

Комментарии 28

friend001002 10 июл 2024 в 16:58

хотя что-то мне подсказывает, что в этой операции FFmpeg работал в однопоточном режиме

kdenlive мне говорит, что многопоточный рендер может вызвать артефакты изображения. Не хочется рисковать.

cdnnow_writer 11 июл 2024 в 20:20

Исходя из моего общения с друзьями операторами и монтажёрами, многие не хотят рисковать и с GPU-рендерингом, доверяя только обработке проекта на процессоре.

mpa4b 10 июл 2024 в 17:32

libx265 (не знаю как другие) любит работать на CPU во много потоков, правда ни один она при этом почему-то не занимает на 100% на длительное время. Следовательно, надо запускать несколько инстансов ffmpeg для получения реальной картины, да ещё и подбирать это кол-во для демонстрации реального выигрыша на конкретном CPU.

cdnnow_writer 11 июл 2024 в 20:21

Спасибо за совет, в следующий раз когда буду более подробно и под другим углом проводить тесты + скорее всего с другим железом, учту это.

basilbasilbasil 10 июл 2024 в 18:15

что-то мне подсказывает что выше скорости аппаратного кодера не прыгнешь
я бы сначала отпрофилировал каждый этап и замерил скорости

cdnnow_writer 11 июл 2024 в 20:25

Ну вот, для mpeg4, внезапно, как оказалось может.
Не удивлюсь уже, если за пределами mpeg4 vs h264 и при других задачах, помимо просто рескейла/смены битрейта ещё какие-то сюрпризы вскроются.

Grand_piano 10 июл 2024 в 21:04

Эммм, прошу прощения, а вы уверены что попадали в поддерживаемые картами профили энкодеров? Тут бы в документацию поглубже нырнуть, как мне кажется.

cdnnow_writer 11 июл 2024 в 20:26

После проведения этого эксперимента, я уже ни в чём не уверен, но исходя из моего перечитывания SDK Nvidia и спецификаций использованных нами карточек, в профили мы попадали.

Grand_piano 12 июл 2024 в 17:29

Прям с битрейтами, левелами, профилями, частотой кадров?

ivankudryavtsev 10 июл 2024 в 21:26

NVENC/NVDEC + рескейл легко дают 500-1000 fps на вашей задаче. Просто инструмент не тот. Возьмите Gstreamer из поставки DeepStream и убедитесь сами. Тесты, конечно, тестируют софт, но вводят в заблуждение относительно железа.

Еще я бы хотел отметить, что скейл на cpu и два трансфера RGB туда сюда через pci-e уменьшают производительность радикально. В нормальном варианте скейл тоже должен быть в gpu (deepstream).

Barabashkad 10 июл 2024 в 21:47

вроде не должно быть переноса RGB туда сюда
так как указан для декодера -hwaccel_output_format_cuda
используеться scale_cuda а потом опять h264_nvenc

ivankudryavtsev 10 июл 2024 в 21:49

Ну может тогда не 2, а все 4 трансфера….

Barabashkad 10 июл 2024 в 22:48

может тогда не RGB a NV12. это в 1.5 раза меньше данных :-)

ivankudryavtsev 10 июл 2024 в 22:50

Ну может и nv12, это надо ffmpeg смотреть.

cdnnow_writer 11 июл 2024 в 20:49

Спасибо что напомнили про Gstreamer, в данном случае хотелось конкретно на примере ffmpeg поэкспериментировать, так как с ним привыкли работать.
FFmpeg ещё на удивление ведёт себя в лучшую сторону когда работаешь с его модулями по отдельности через код на плюсах, а не в консоли. Пока что правда непонятно, почему так.

ToSHiC 11 июл 2024 в 01:18

Вам пы попробовать указывать nvenc/nvdec явно в качестве кодека, и nvscale в качестве скейлера - при такой комбинации, и отключении кодирования звука, потребление cpu должно быть совсем небольшим.

kalina87 11 июл 2024 в 13:10

Да, автор явно перепутал аппаратные кодеки нвидиа с полусофтовой кудой

cdnnow_writer 11 июл 2024 в 20:42

В первых 2/3 напутал, я про это и сам отписался. Хотя по идее mpeg4 тоже аппаратно поддерживается, но вот фильтр на рескейл определённо грузил только процессор.

ffmpeg-cuda -hwaccel cuda -hwaccel_output_format cuda -i bbb_sunflower_2160p_30fps_normal.mp4 -vf "scale_cuda=1920:1080" -c:v hevc_nvenc -preset medium output_cuda.mp4

Тут уж и кодек указан аппаратный, и фильтр на рескейл аппаратный, мониторинг показывал что GPU был загружен, а CPU почти простаивал. Или же этого тоже недостаточно и ещё что-то нужно было указывать в параметрах команды для большего аппаратного ускорения?

ToSHiC 13 июл 2024 в 11:49

Вот так уже существенно лучше, правда в статье этого не было )
Надо ещё проверить, что кадры не передаются каждый раз из видеокарты в основную память и обратно. Например, это можно посмотреть в дебаг логах ffmpeg, там надо смотреть на pixel format в разных стадиях пайплайна обработки.

cdnnow_writer 11 июл 2024 в 20:39

После того как я заметил что mpeg4 напутал с h264/h265 я же вроде бы так и сделал, да и мониторинг у меня отражал что CPU почти не грузился(в статью правда это уже не вошло).

ffmpeg-cuda -hwaccel cuda -hwaccel_output_format cuda -i bbb_sunflower_2160p_30fps_normal.mp4 -vf "scale_cuda=1920:1080" -c:v hevc_nvenc -preset medium output_cuda.mp4

PbIXTOP 11 июл 2024 в 05:29

Показ разницы в процентах в таких тестах просто неприемлем для нормального восприятия.

Например -300% - это как? а фраза "выполнение в 4 раза дольше" выглядит более понятно.

И оперировать следовало не ускорением, а понятием время исполнения.

cdnnow_writer 11 июл 2024 в 20:38

Спасибо за замечание, в следующем посте по этой теме или аналогичными, буду писать словами развёрнуто, а не только процентами.

melodictsk 11 июл 2024 в 09:32

В topaz video ai то же странности с этим ffmpeg, иногда 15 ФПС, иногда 60. Недозагрузка ГПУ и цпу. Надо поэкспериментировать, может быть реально перед обработкой в топазе быстрее будет перегнать в х265, а потом уже запускать обработку.

cdnnow_writer 11 июл 2024 в 20:45

С ffmpeg у меня странности ещё продолжились дальше, когда я решил его использовать не из под консоли, а по документации подключая его модули в программе на плюсах. Разницы в производительности я от этого не ожидал, но она снова откуда-то взялась.

Ну а ещё в исходниках ffmpeg убивает околонулевое количество комментариев.

jidckii 11 июл 2024 в 14:09

Ты ffmpeg не правильно запускаешь, у тебя везде используется фильтр и кодек для CPU.

Для GPU другие аргументы и зависят от того, что за GPU.

Рекомендую почитать https://trac.ffmpeg.org/wiki/HWAccelIntro

basilbasilbasil 11 июл 2024 в 20:34

cdnnowВ общем, М̶и̶х̶а̶и̶л̶, Матвей, несмотря не первый неудачный опыт, будет логично провести вторую попытку с верными вводными, мы верим - у вас получится!

cdnnow_writer 11 июл 2024 в 20:55

Спасибо, буду стараться.)
Хотя в завершающей 1/3 от статьи, вроде наконец-то тестировал уже всё как надо.
Но в комментариях появилось много интересных предложений для нового тестирования, так что продолжению скорее всего точно быть. Плюс интересно ещё поэкспериментировать с FFmpeg не в консоли, а с подключением его отдельных библиотек в коде, под конкретные задачи.

И по стилю, скорее всего дальше будет также. Не хочется вырезать неудачные дубли и трудности, так как примеров того когда всё идёт как надо достаточно. А когда всё пошло не по плану, обычно отбраковывается и свет никогда не видит, хотя интересного и полезного, там порой не меньше.

cdnnow_writer 11 июл 2024 в 20:35

Читал во время написания поста, перечитал опять и честно говоря так и не понял, где именно везде у меня кодек для CPU.

ffmpeg-cuda -hwaccel cuda -hwaccel_output_format cuda -i bbb_sunflower_2160p_30fps_normal.mp4 -vf "scale_cuda=1920:1080" -c:v hevc_nvenc -preset medium output_cuda.mp4

Кодек - hevc_nvenc использует GPU.

NVENC can be used for H.264 and HEVC encoding. FFmpeg supports NVENC through the h264_nvenc and hevc_nvenc encoders. In order to enable it in FFmpeg you need:

Фильтр - scale_cuda - использует GPU.

An example using scale_cuda and encoding in hardware, scale_cuda is available if compiled with ffnvcodec and --enable-cuda-llvm (default is on, requires nvidia llvm to be present at runtime):

Да и мониторинг через nvtop и htop, указывает на загрузку GPU, а не CPU.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий