Исторически сложилось так, что автору в течение достаточно длительного периода приходилось разрабатывать мультимедийную поддержку для Windows-приложений. Вначале использовался DirectShow, но в какой-то момент произошло знакомство с проектом FFmpeg, который привлек своей мощью, универсальностью и гибкостью. В процессе работы с FFmpeg было написано немало кода: обертка на C++ для FFmpeg API, а также ряд утилит и GUI решений для .NET. Когда эти результаты достигли определенной степени зрелости, возникло желание поделиться ими с программистским сообществом и заодно изложить свое понимание архитектуры FFmpeg и компьютерного мультимедиа вообще.

Оглавление

Введение
1. Общая характеристика FFmpeg
2. Терминология, основные компоненты и библиотеки FFmpeg
  2.1. Опции
  2.2. Медиаконтейнер
  2.3. Демультиплексирование
    2.3.1. Формат
    2.3.2. Потоки и пакеты
    2.3.3. Метаданные и главы
  2.4. Декодирование
    2.4.1. Декодер
    2.4.2. Видео- и аудиокадры
    2.4.3. Несжатые данные
    2.4.4. Субтитры
    2.4.5. Повышение скорости декодирования видео
  2.5. Некоторые особенности работы с медиафайлами
  2.6. Конвертация формата и обработка кадра фильтром
  2.7. Bitstream-фильтры
  2.8. Запись данных в медиаконтейнер
  2.9. Идентификатор кодека и формат контейнера
  2.10. Работа со временем
  2.11. Разное
    2.11.1. Interlacing
    2.11.2. Interleaving
    2.11.3. Sample aspect ratio
3. Сборка FFmpeg
  3.1. Внешние библиотеки
  3.2. Конфигурирование и компиляция
  3.3. Сборка под Windows
  3.4. Сборка для программирования с использованием FFmpeg API
4. Разработки автора
  4.1. Обертка над FFmpeg API и приложения
    4.1.1. Explorer
    4.1.2. Player
    4.1.3. Transcoder
  4.2. Справка, логи
  4.3. Где скачать
  4.4. Дисклеймер
Ресурсы

Введение

В начале статьи дается краткая общая характеристика FFmpeg, затем достаточно подробно описываются внутреннее устройство FFmpeg — терминология, компоненты, библиотеки. Далее кратко описываются процесс сборки FFmpeg и программирование с использованием FFmpeg API. После этого описываются предлагаемые решения автора и приводятся ссылки для скачивания.

Это третья статья автора, посвященная FFmpeg. Первая, описывающая архитектуру кодеков, находится здесь, вторая, посвященная увеличению скорости декодирования видео, находится здесь. В связи с постоянным развитием архитектуры и кодовой базы FFmpeg некоторые сведения, изложенные в статье про кодеки, требуют небольшой коррекции.

1. Общая характеристика FFmpeg

FFmpeg — это грандиозный Open Source проект, своего рода энциклопедия компьютерного мультимедиа. Название происходит от названия экспертной группы MPEG (Moving Picture Experts Group) и FF, означающего «fast forward». Инициаторами и руководителями являются Фабрис Беллар (Fabrice Bellard) и Михаэль Нидермайер (Michael Niedermayer).

В этом проекте разработчики попытались собрать практически все известные решения в области компьютерного мультимедиа, в том числе достаточно редкие. При использовании полной версии FFmpeg вероятность того, что вы столкнетесь с неизвестным контейнером, кодеком, протоколом весьма небольшая.

FFmpeg включает в себя 8 библиотек и 3 приложения, которые собираются под многие платформы и практически не требуют установки каких-то внешних компонент или фреймворков. Но за эти удобства надо платить, суммарный размер библиотек в полной сборке FFmpeg 7.1, более 150 МБ (например, в FFmpeg 4.0 это было «всего» 64 МБ). Впрочем, в эпоху 64-битных ОС и терабайтных дисков это, наверное, не является такой уж критической характеристикой. К тому же при необходимости можно сделать сборку «под себя», оставив только нужные компоненты.

FFmpeg эффективно использует архитектуру современных процессоров, многоядерность, многопоточность, векторные инструкции, также имеется поддержка графических процессоров.

Код библиотек и приложений FFmpeg написан на C, точнее на C11 c небольшими исключениями. Код общедоступных заголовочных файлов FFmpeg API совместим с C99. Детали см. на соответствующей странице сайта FFmpeg. Проект имеет монолитную архитектуру, если требуются изменения, например, добавление компонент, то их надо вносить в код проекта, после чего собирать его заново. Такая архитектура принципиально отличается от архитектуры, основанной на независимых компонентах и плагинах. (В качестве примера подобной архитектуры можно привести DirectShow или GStreamer.)

В состав FFmpeg входят три консольных приложения — ffmpeg, ffplay и ffprobe, для их настройки используются командная строка. Для создания собственных решений на основе FFmpeg предлагается API. Для разработки программ на C/C++ имеются заголовочные C-файлы и необходимые файлы для компоновки с библиотеками. В соответствии с принципами Open Source код библиотек и приложений является открытым, что иногда очень помогает разобраться со сложными случаями.

2. Терминология, основные компоненты и библиотеки FFmpeg

В этом разделе мы рассмотрим термины, используемые в FFmpeg, опишем компоненты и основные сценарии их взаимодействия, а также библиотеки, в которых эти компоненты находятся. Отметим, что все описанные ниже библиотеки используют вспомогательную библиотеку libavutil.

Материалы раздела также можно рассматривать как достаточно общее описание внутреннего устройства компьютерного мультимедиа, безотносительно к используемым программным инструментам.

2.1. Опции

Для дополнительной настройки многих компонент используются опции (options). Опции — это набор пар ключ-значение. Ключ является строкой. В интерфейсе функций, использующих опции, значение также задается строкой, но во внутреннем представлении значение может быть разных типов. Для хранения набора пар строк используется контейнер AVDictionary. Для внутреннего представления опции используется структура AVOption. Опции являются весьма гибким и универсальным механизмом настройки компонент.

2.2. Медиаконтейнер

Источник медиаданных часто называют медиаконтейнером (media container) или просто контейнером (container). Этот термин хорошо подходит для медиаданных, находящихся в файле, но, возможно, покажется не вполне адекватным для других источников медиаданных, с которыми умеет работать FFmpeg, например, медиаданные, которые не описываются одним файлом, поступают через сеть или другие коммуникационные каналы, поступают с устройства захвата медиаданных, генерируются какими-то генераторами. Но там не менее мы будем использовать этот термин, так к��к, во-первых, использовать единый термин просто удобно, а во-вторых, FFmpeg предоставляет ряд абстракций, позволяющих единообразно трактовать самые разные источники медиаданных.

2.3. Демультиплексирование

Для получения данных из медиаконтейнера служат компоненты FFmpeg, называемые демультиплексорами (demuxer). Демультиплексоры находятся в библиотеке libavformat.

2.3.1. Формат

Ключевой характеристикой демультиплексора является формат (format), который идентифицируется строкой. Каждый демультиплексор имеет формат и в FFmpeg нет двух демультиплексоров с одинаковым форматом. Соответственно, мы можем говорить о формате контейнера, это будет означать, что контейнер доступен с помощью демультиплексора с таким форматом.

Для открытия демультиплексора надо задать три параметра:

URL (Uniform Resource Locator);
Формат;
Опции.

Рассмотрим каждый из этих параметров более подробно.

URL является обязательным параметром и представляет собой строку, например, это может быть путь к файлу или адрес сетевого источника. Эта строка не всегда является адресом ресурса в сети Интернет, в общем случае ее структура зависит от конкретного формата. URL может начинаться с префикса proto_name:// или proto_name:, который определяет протокол получения данных. FFmpeg поддерживает несколько десятков протоколов. Среди них основной это, конечно, файловый протокол (его можно не указывать, а если указывать, то в виде file:). Также есть хорошо известные сетевые протоколы о��щего назначения — TCP, UDP, HTTP, а также некоторые более специальные протоколы. Структура остальной части URL зависит от протокола, она определяет локацию источника данных и, возможно, какие-то дополнительные параметры. В первом приближении можно считать, что протокол определяет то, как демультиплексор получает поток байтов, а формат определяет структуру этого потока. Действительно, простые протоколы получения потока байтов типа файлового или TCP можно комбинировать с разными форматами, но другие протоколы тесно связаны с форматом, например hls, rtsp. В случае получения данных с устройства видео- и аудиозахвата протокол не указывается.

Формат — это ключевая характеристика демультиплексора, без него открытие невозможно, но достаточно часто FFmpeg определяет формат из URL и заголовка контейнера, в этом случае его явно указывать не нужно. Например, в случае файлового контейнера формат обычно связан с расширением файла. Вот примеры таких расширений: avi, mp4, mkv, mov, flv, ogg, wav, mp3.

Опции используются для уточнения деталей протокола и формата и используются довольно редко. Для некоторых форматов (обычно относящихся к так называемым сырым форматам), использование опций является обязательным, так как контейнер не содержит всех параметров, необходимых для демультиплексирования, примеры есть в разделе 2.9.

2.3.2. Потоки и пакеты

После успешного открытия демультиплексора становятся доступными медиаданные, которые разбиваются на потоки (streams, структура AVStream). Число потоков один или несколько, в зависимости от формата демультиплексора и медиаданных контейнера. Для ссылки на поток используется индекс.

Медиатип

Важнейшей характеристикой потока является медиатип данных, представляемых потоком (media type, перечисление AVMediaType). Основные медиатипы, поддерживаемые FFmpeg — это видео (video) и аудио (audio). Еще один медиатип — это субтитры (subtitle). Есть также два вспомогательных медиатипа — данные (data) и вложение (attachment). Демультиплексор может и не определить медиатип потока, тогда он считается неизвестным (unknown).

В контейнере может быть несколько потоков с одинаковым медиатипом, например, аудиопоток с многоканальным объемным звуком и аудиопоток с простым стереозвуком. Может быть несколько потоков с субтитрами, каждый из которых использует какой-то один язык. В случае нескольких потоков с одинаковым медиатипом, один из них обычно помечается флагом «по умолчанию» (default), этот поток выбирают, когда отсутствуют другие критерии выбора потока. Потоки с одинаковым медиатипом можно иногда различать с помощью целочисленного идентификатора потока.

Идентификатор кодека

Поток представляет медиаданные в некотором сжатом формате или закодированными и, соответственно, следующей после медиатипа важнейшей характеристикой потока является формат сжатия (compression format) или формат кодирования (encoding format) представляемых данных. (Термины «сжатие» и «кодирование» в этом контексте являются синонимами.) В FFmpeg этот формат называется идентификатором кодека (codec id, перечисление AVCodecID). Отметим, что термин «кодек» (codec — enCOder/DECoder) обычно используется для обозначения программных или аппаратных компонент, осуществляющих кодирование или декодирование, то есть для кодеров и декодеров, но в данном случае идентификатор кодека идентифицирует формат сжатия (кодирования).

Для более подробного описания идентификатора кодека служит структура AVCodecDescriptor. Ключевым членом этой структуры является идентификатора кодека (член id), а остальные члены как раз и дают дополнительную информацию. Прежде всего, это медиатип (член type), а также уникальное имя (член name). Таким образом, можно говорить об имени идентификатора кодека. Вот примеры некоторых имен: h264, hevc, vp9, aac, mp3, pcm_mulaw. Это имя в основном используется для внутренней работы FFmpeg, в самом контейнере используется другой идентификатор. Поток обычно представляет идентификатор кодека в каком-то виде, зависящем от формата контейнера. Это может быть строка (например, CodecTag в Matroska) или число (например, четырехбайтовый FourCC или двухбайтовый FormatTag в WAV-файлах). В FFmpeg идентификатор кодека — это элемент перечисления, то есть целочисленная константа, и демультиплексор должен определить эту константу исходя из данных, извлекаемых из потока. Если это не удается, то идентификатор кодека потока оказывается неизвестным (unknown).

Другие характеристики медиаданных потока

Кроме медиатипа и идентификатора кодека, демультиплексор может определять и другие характеристики медиаданных, представляемых потоком, но они в основном уже зависит от медиатипа потока. Например, для видео это размеры кадра, для аудио число и раскладка каналов, частота дискретизации.

Пакеты

Медиаданные, представляемые потоком, организованы в объекты, которые называются пакетами (packets, структура AVPacket). Демультиплексор умеет последовательно извлекать пакеты из контейнера, после того, как пакет извлечен, можно определить к какому потоку относится этот пакет (член stream_index структуры AVPacket). Нельзя извлекать пакеты из конкретного потока. Поток является скорее логической категорией, он объединяет в одну группу пакеты, имеющие общие характеристики. В самом контейнере пакеты разных потоков физически располагаются «вперемешку». Подробнее о некоторых принципах размещения пакетов в контейнере см. раздел 2.11.2.

2.3.3. Метаданные и главы

Контейнер может содержать метаданные (metadata) — набор строковых пар ключ-значение. Метаданные могут содержать достаточно произвольные данные, но имеются некоторые традиционные, например метаданные с ключами title, album, artist, copyright, comment. Поток также может иметь метаданные, есть несколько стандартных, например метаданные с ключами language, encoder. Демультиплексор загружает метаданные в контейнер AVDictionary. Но следует иметь в виду, что метаданные поддерживают не все форматы.

Некоторые файловые контейнеры поддерживают еще и главы (chapters). Глава — это интервал воспроизведения медиаданных, который задается временем начала и конца, а также может содержать метаданные (обычно с ключом title). Эти данные загружаются в структуру AVChapter. В качестве примеров форматов, поддерживающих главы, можно привести Matroska (файлы *.mkv) и QuickTime/MOV (файлы *.mov).

2.4. Декодирование

2.4.1. Декодер

Если идентификатор кодека потока известен и требуется дальнейшая обработка пакетов, то надо открыть декодер (decoder). Декодер является программный компонентой, ключевой характеристикой которой является идентификатор кодека. Декодер умеет разжимать (декодировать) сжатые (закодированные) данные с соответствующим идентификатором кодека, то есть трансформировать их в данные одного из известных несжатых форматов. Декодеры находятся в библиотеке libavcodec. Если для потока определился идентификатора кодека, то для него можно открыть декодер по умолчанию (Изредка идентификатор кодека не имеет декодеров и тогда пакет должен обрабатываться внешним приложением.) Все декодеры имеют уникальное имя. Часто имя декодера по умолчанию совпадает с именем идентификатора кодека (например h264, hevc, vp9, aac), но такое совпадение не обязательно и даже может внести определенную путаницу. (Например, для идентификатора кодека mp3 декодер по умолчанию mp3float.) Для многих идентификаторов кодека имеются более одного декодера и для того, чтобы открыть альтернативный декодер, надо знать его имя.

Декодер может поддерживать опции, которые задаются при открытии декодера, но это делается редко, за исключением одного случая — если декодер поддерживает многопоточное декодирование, то с помощью опции threads можно задать число используемых потоков.
Более подробно архитектура кодеков обсуждается в предыдущей статье.

2.4.2. Видео- и аудиокадры

Рассмотрим, как декодер работает для видео- и аудиопотоков. Если декодер успешно открыт, то на вход ему передаются пакеты, извлеченные из потока, а на выходе из декодера извлекаются разжатые (декодированные) данные, называемые кадрами (frames, структура AVFrame). Термин «кадр» применяется не только к видео, но и к аудио. Отметим также, что на один входной пакет не всегда получается один выходной кадр, может быть ноль кадров или больше одного (хотя, конечно, чаще всего «один к одному»). Кадр характеризуется медиатипом и другими параметрами, зависящими от медиатипа.

Ключевой характеристикой видеокадра является формат пикселей (pixel format, перечисление AVPixelFormat). В FFmpeg более двухсот форматов пикселей. Каждый формат пикселей имеет строковое представление, вот некоторые примеры: yuv420p, nv12, bgra, rgb24, gray8, pal8. Видеокадр также характеризуется размером в пикселях — шириной (width) и высотой (height).

Ключевой характеристикой аудиокадра является формат отсчетов (sample format, перечисление AVSampleFormat). Форматов отсчетов всего двенадцать. Каждый формат отсчетов имеет строковое представление, например fltp, s16p, flt, s16. Аудиокадр также характеризуется количеством и раскладкой каналов (channel layout), частотой дискретизации (sample rate) и количеством отсчетов в каждом канале, которое называется размером кадра (frame size).

Формат кадров (то есть формат пикселей или отсчетов), извлекаемых из декодера, является важной характеристикой декодера. Для видеодекодеров чаще всего используются два — yuv420p и nv12. Это планарные (planar) форматы цветовой модели YCbCr с цветовой субдискретизацией (chroma subsampling 4:2:0), среднее число бит на пиксель равно 12. Планарность означает, что яркостная компонента Y хранится в отдельном массиве. Для аудиодекодеров чаще всего используется fltp. Это планарный 32-битный формат в стандарте IEEE Float, планарность означает, что отсчеты каждого канала расположены непрерывно. Несколько реже используется s16p — планарный 16-битный формат PCM16, другие форматы используются очень редко.

Декодер может поддерживать несколько выходных форматов, при открытии декодера по умолчанию выбор формата происходит автоматически. При открытии декодера по имени нужно запросить его выходные форматы и указать один из них в качестве используемого выходного формата.

2.4.3. Несжатые данные

Поток может представлять и несжатые данные, но они все равно обрабатываются по этой же схеме. Для потока должен определиться идентификатор кодека и существовать соответствующий декодер. Декодер может быть очень простым, иногда он просто копирует данные. Например, для WAV-файла, в котором хранятся данные в формате PCM16, идентификатор кодека единственного потока определится как pcm_s16le или pcm_s16be, декодер по умолчанию для этих идентификаторов кодека имеет такое же имя. Декодер pcm_s16le на little-endian платформах просто копирует данные из буфера пакета в буфер кадра, формат отсчетов кадра будет s16. То же самое будет делать декодер pcm_s16be на big-endian платформах. Для других вариантов несжатого аудио может выполняться несложная работа, например, расширение 24-битных отсчетов до 32-битных или перестановка байтов для превращения big-endian отсчетов в little-endian или наоборот.

2.4.4. Субтитры

Обработка субтитров также следует описанной выше схеме. Для потоков субтитров имеются идентификаторы кодека (например subrip) и соответствующие декодеры. Пакеты субтитров декодируются не так, как видео или аудио, для декодирования используется специальная функция. На выходе этой функции извлекаются объекты, описываемые структурой AVSubtitle. Эта структура содержит члены, задающие положение субтитров в кадре, время начала и окончания их показа. Текст субтитров может быть в разных формах: простой текст, текст в специальном формате ASS (Substation Alpha), битовое изображение. Текстовые варианты используют кодировку UTF-8.

Если нужны субтитры на разных языках, то для каждого языка организуется отдельный поток субтитров. Такой поток должен иметь метаданные с ключом language, значением является трехбуквенный код языка в соответствии с ISO 639-2 (eng, ger, rus, etc.).

Потоки субтитров могут находиться как в одном контейнере с аудио- и видеопотоками, так и в отдельном контейнере. Существует несколько форматов, предназначенных специально для субтитров, например srt (SubRip subtitle). В файлах этого формата (расширение srt) хранятся данные с идентификатором кодека subrip.

2.4.5. Повышение скорости декодирования видео

С приходом тяжеловесного видео, такого как 4K (Ultra HD), проблема эффективности декодирования видеопотока стала достаточно актуальной. На среднем компьютере, возможно, понадобятся специальные меры для того, чтобы можно было декодировать такой видеопоток в реальном масштабе времени.

В FFmpeg есть три способа увеличения скорости декодирования.

Подключать для декодирования дополнительные потоки выполнения (threads), для этого используется опция декодера threads.
Использовать аппаратное ускорение (hardware acceleration). В этом случае декодер открывается в специальном режиме, при котором подключается аппаратное ускорение, основанное на использовании графических процессоров. Конкретный вариант аппаратного ускорения идентифицируется строкой, например dxva2. Доступные варианты аппаратного ускорения зависят от операционной системы и установленного оборудования.
Использовать специальные декодеры, которые реализуют декодирование с использованием графических процессоров. В FFmpeg имеются два семейства таких декодеров: декодеры, использующие графические процессоры Intel с технологией QSV и декодеры, использующие графические процессоры NVIDIA с технологией CUVID. Имена таких декодеров имеют суффиксы _qsv или _cuvid соответственно. Такие декодеры есть для самых популярных идентификаторов кодека, в к��честве примера можно привести h264_qsv, hevc_qsv, vp9_qsv, h264_cuvid, hevc_cuvid, vp9_cuvid.

Отметим, что дополнительные потоки и аппаратное ускорение позволяют использовать не все декодеры, но наиболее популярные, например h264, hevc, vp9, эти возможности поддерживают, а вот theora нет. Более подробно ускорение декодирования обсуждается в предыдущей статье.

2.5. Некоторые особенности работы с медиафайлами

Описанная выше схема работы с медиаданными является весьма гибкой, в частности можно обрабатывать файлы, хранящие единичное изображение (*.png, *.jpeg, *.bmp, *.tiff, etc.) или простую анимацию (*.gif).

Например, мы можем открыть демультиплексор, передав ему в качестве URL путь к PNG-файлу. Демультиплексор успешно откроется, формат определится как png_pipe (piped png sequence). Будет доступен один видеопоток, идентификатор кодека этого потока будет png, соответствующий декодер по умолчанию будет иметь такое же имя. В потоке будет один пакет, после его декодирования получим видеокадр с форматом пикселей rgba.

В ряде случаев FFmpeg умеет обрабатывать данные, которые на первый взгляд не имеют никакого отношения к мультимедиа. Например, мы можем открыть демультиплексор, передав ему в качестве URL путь к обычному текстовому файлу (расширение txt). Демультиплексор успешно откроется и в медиапроигрывателе мы сможем увидеть содержимое файла, показанного как видеоролик. В этом случае формат определится как tty (Tele-typewriter), будет доступен один видеопоток, идентификатор кодека этого потока будет ansi, соответствующий декодер по умолчанию будет иметь такое же имя, формат пикселей декодированных кадров будет pal8. По умолчанию размер кадра 640х400, частота 25 к/с, но эти параметры можно изменить с помощью опций.

2.6. Конвертация формата и обработка кадра фильтром

Формат видео- и аудиокадров, извлекаемых из декодера, зачастую довольно специфичен, он удобен для алгоритмов кодирования/декодирования, но может быть неприемлемым для дальнейшего использования. По этой причине после декодирования довольно часто приходится конвертировать кадры в другой формат. Это можно сделать двумя способами.

Использовать специальные компоненты: rescaler (video scaler) для видеокадров и resampler (audio resampler) для аудиокадров. Эти компоненты находятся в библиотеках libswscale и libswresample соответственно. Rescaler позволяет изменить формат пикселей и размеры видеокадров. Resampler позволяет изменить формат отсчетов, количество и раскладку каналов, а также частоту дискретизации аудиокадров.
Построить граф фильтров (filter graph). В простейшем варианте граф фильтров делает то же, что и rescaler или resampler, но его возможности гораздо шире — он может подключить фильтры (filters), которые являются специальными компонентами для дополнительной обработки кадров. Фильтры можно соединять в цепочки, а также в более сложные структуры, граф фильтров и сами фильтры могут иметь несколько входов и выходов. Есть даже нескол��ко экзотических фильтров, для которых медиатипы входа и выхода не совпадают. Фильтры могут поддерживать команды, которые позволяют изменять параметры фильтра «на ходу». Граф фильтров и фильтры находятся в библиотеке libavfilter. Фильтры из этой библиотеки позволяют выполнять самые разнообразные трансформации кадров. Например, есть фильтр subtitles, который накладывает на видеокадры субтитры. Этот фильтр может использовать как один из потоков субтитров проигрываемого контейнера, так и поток субтитров какого-то внешнего контейнера.

Дальнейшая судьба кадра зависит от назначения приложения. Медиапроигрыватели выполняют рендеринг кадра, то есть выводят его на устройство визуализации или устройство воспроизведения звука. В транскодерах кадр кодируется и записывается в целевой медиаконтейнер. В других приложениях может осуществляться какая-то специальная обработка кадра, в качестве примера можно привести системы технического зрения или системы поиска и распознавания лиц.

Изложенный выше материал можно изобразить в виде схемы.

2.7. Bitstream-фильтры

В FFmpeg есть еще компоненты, называемые bitstream-фильтрами. Эти компоненты выполняют преобразования пакетов без их декодирования. Bitstream-фильтры находятся в библиотеке libavcodec.

2.8. Запись данных в медиаконтейнер

С помощью FFmpeg можно создавать медиаконтейнеры и заполнять их данными. Для создания медиаконтейнера используется компонента, называемая мультиплексором (muxer). Мультиплексоры находятся в библиотеке libavformat. Ключевой характеристикой мультиплексора является все тот же формат. Таким образом, каждый формат, поддерживаемый FFmpeg, имеет демультиплексор или мультиплексор или оба сразу. Для открытия мультиплексора надо задать те же параметры, что и для демультиплексора — URL, формат и опции. Все, что было написано для этих параметров в случае демультиплексора, справедливо и для параметров мультиплексора. После открытия мультиплексора необходимо добавить требуемые потоки. Для каждого потока надо задать медиатип, идентификатор кодека и некоторые другие параметры, зависящие от медиатипа. После открытия потоков в них можно записывать сжатые (закодированные) данные. Отметим, что это сжатие может быть фиктивным, выше мы обсуждали, что некоторые идентификаторы кодека представляют фактически несжатые данные.

Если исходные данные являются несжатыми, то надо открыть кодер (encoder) для соответствующего идентификатор кодека. Кодер еще довольно часто называют энкодером (просто калька с английского). Кодеры находятся в библиотеке libavcodec. На вход кодера поступают кадры, содержащие несжатые данные. Допустимые форматы кадров каждый кодер определяет самостоятельно. На выходе из кодера извлекаются пакеты со сжатыми данными, которые и передаются мультиплексору для записи в контейнер. Для открытия кодера надо знать его имя. Кроме того, практически всегда надо задать набор опций, которые определяют характеристики сжатых данных и особенности работы кодера.

В ряде случаев имеется возможность управлять скоростью кодирования, для некоторых кодеров можно задавать количество потоков кодирования и определять режим аппаратного ускорения. Также имеются кодеры, которые поддерживают технологии кодирования на графических процессорах — Intel QSV или NVIDIA NVENC. Имена таких кодеров имеют суффиксы _qsv или _nvenc соответственно.

В некоторых случаях кодер не используется, пакеты со сжатыми данными извлекаются из одного медиаконтейнера и записываются в другой медиаконтейнер. Данные пакетов могут быть обработаны bitstream-фильтром или не меняться.

2.9. Идентификатор кодека и формат контейнера

Формат как абстрактная концепция не связан жестко с каким-либо медиатипом или идентификатором кодека, но для конкретного формата такая связь может быть.

Для многих идентификаторов кодека существует формат контейнера, который предназначен исключительно для данных с этим идентификатором кодека. В этом случае обычно может быть только один поток, метаданные не поддерживаются. Это так называемые сырые форматы (raw formats), они в основном используются при получении данных с устройств захвата медиаданных. Часто такой формат имеет имя, совпадающее с именем идентификатора кодека, но это не обязательно. Вот примеры, где такое совпадение есть: h264, hevc, rawvideo, aac, flac. А вот для многочисленных идентификаторов кодека несжатого (или слабо сжатого) аудио, начинающихся с префикса pcm_, соответствующие форматы имеют другое имя, оно получается удалением этого префикса.

Для того, чтобы демультиплексор мог разбить поток данных на пакеты, формат rawvideo и форматы несжатого аудио требуют задания дополнительных опций: для видео это формат пикселей (pixel_format), размер кадра (video_size) и частота кадров (framerate), для аудио это частота дискретизации(sample_rate) и число каналов (channels). Дополнительных опций могут потребовать и другие сырые форматы.

Существуют форматы, предназначенные для данных какого-то определенного медиатипа, но позволяющие использовать разные идентификаторы кодека. Самым известным, наверное, является WAV-формат. Он может быть использован для аудиоданных с разными идентификаторами кодека. Эти данные могут быть как несжатые, так и сжатые. Например, несжатые данные могут иметь идентификатор кодека pcm_s16le (PCM16) или pcm_f32le (IEEE Float). Для сжатых данных может быть использовано простейшее сжатие типа pcm_mulaw или pcm_alaw, а также более сложное, например mp3.

Наиболее популярные форматы контейнеров, например, форматы, соответствующие расширениям файлов avi, mp4, mkv, ogg, flv, mov, etc., поддерживают несколько потоков с разными медиатипами и разными идентификаторами кодека. Обычно в этом случае есть поддержка метаданных, некоторые форматы поддерживают главы. Но следует иметь в виду, что, несмотря на универсальность, какие-то форматы могут устанавливать свои ограничения как на медиатип потока, так и на идентификатор кодека потока.

Вообще система именования в FFmpeg может иногда запутать. Можно столкнуться с сит��ацией, когда идентификатор кодека, декодер, кодер и формат контейнера имеют одно и то же имя (в качестве примера можно привести aac), но при работе с FFmpeg нужно четко понимать к какой сущности относится имя в том или ином контексте.

2.10. Работа со временем

Наверное, не надо говорить, насколько важна корректная работа со временем в мультимедийных приложениях. Для задания времени в FFmpeg используется единица времени (time base), задаваемая в секундах с помощью рационального числа, например 1/1000 задает миллисекунду. (Аналогичный подход используется в C++11 в стандартной библиотеке chrono.) Единицу времени используют потоки, кодеки, главы и другие компоненты, в соответствующих структурах имеется член time_base. Для представления рациональных чисел в FFmpeg используется структура AVRational.

Кадры, пакеты, главы имеют метки времени (timestamps). В соответствующих структурах имеются члены типа int64_t, их значения содержат время в некоторых единицах времени. Например, структура AVFrame имеет член pts (presentation timestamp), значение которого определяет относительное время сцены, запечатленной в кадре.

В ряде случаев в FFmpeg используется стандартная единица времени — микросекунда (1/AV_TIME_BASE).

Для видеопотоков частота кадров (frame rate) также задается рациональным числом, например 24000/1001 (NTSC-film frame rate) это почти 24 кадра в секунду.

Подобный подход позволяет вычислять требуемое время максимально точно, избегая накопления ошибок округления. Более подробно работа со временем обсуждается в предыдущей статье про кодеки.

2.11. Разное

В разделе рассматриваются два часто используемых термина, которые, в силу их внешней схожести в английском языке, иногда путают. Также обсуждается проблема «неквадратного пикселя».

2.11.1. Interlacing

При появлении телевидения по техническим причинам кадр формировался в два прохода — отдельно нечетные строки и отдельно четные. (Строки нумеруются с единицы, телевидение появилось раньше C.) По-русски это называется чересстрочной разверткой, по-английски interlaced scan type или просто interlacing. Если кадр формируется за один проход, то это называется прогрессивной разверткой (progressive scan type). В настоящее время практически все аналоговые камеры используют чересстрочную развертку, цифровые камеры не всегда, но все-таки тоже иногда используют. Если кадр получен с помощью чересстрочной развертки, то его можно разбить на две половинки — в одной нечетные строки, в другой четные. Эти половинки называются полями (fields) и обозначаются как верхнее (top) для нечетных и нижнее (bottom) для четных. При кодировании каждое поле кодируется отдельно. После кодирования эти два поля могут быть помещены как в один пакет, так и в два отдельных (separated fields). Порядок формирования полей (scan order) тоже может быть разным, первым может формироваться верхнее поле (top field first), но может быть и наоборот(bottom field first). При декодировании декодер соединяет оба поля в одном кадре. Такие кадры на динамических сценах имеют характерный дефект, называемый эффектом «гребёнки». Он возникает из-за того, что в результате изменения сцены к моменту второго прохода нечетные и четные строки изображения будут «разъезжаться». Это обычно хорошо видно на контрастных участках.

Для уменьшения этого эффекта (полностью его устранить невозможно) такие кадры подвергают специальной обработке, называемой деинтерлейсингом (deinterlacing). В FFmpeg есть несколько фильтров, решающих эту задачу, наиболее известный из них — yadif (yet another deinterlacing filter).

Фильтры деинтерлейсинга обычно имеют два основных режима: в первом из них на каждый входной кадр генерируется один выходной, во втором выходные кадры генерируется по каждому полю и, таким образом, на каждый входной кадр получается два выходных, что удваивает частоту кадров. Например, в yadif первый режим задается установкой параметра mode=send_frame, а второй режим установкой параметра mode=send_field.

Демультиплексоры могут определить (правда, не всегда) тип развертки в качестве одной из характеристик данных видеопотока. Тип развертки можно также определить непосредственно из декодированного кадра, структура AVFrame имеет члены interlaced_frame и top_field_first.

Иногда можно столкнуться с ситуацией, когда поля в кадре расположены в неправильном порядке, то есть нижнее поле размещает на месте верхнего, а верхнее на месте нижнего (декодер неправильно определил scan order). Это приводит к некоторой деградации изображения (хотя при беглом взгляде это можно и не заметить). В данном случае опять могут помочь фильтры деинтерлейсинга, например yadif имеет параметр parity, с помощью которого можно управлять порядком полей. Есть также специальный фильтр fieldorder, который меняет поля местами.

2.11.2. Interleaving

Для синхронизации потоков с разными медиатипами важно, чтобы в контейнере пакеты из разных потоков, но с близкими временными метками, находились близко друг к другу. В этом случае говорят, что пакеты чередуются (interleaved). (Известный формат AVI как раз и расшифровывается как Audio Video Interleaved.) Если это условие не выполняется, то при синхронизации потоков будут проблемы, придется держать в памяти большие очереди пакетов.

В FFmpeg для записи пакетов в контейнер обычно используется функция av_interleaved_write_frame(), которая и обеспечивает нужное расположение пакетов. Эта достигается за счет того, что функция записывает пакеты не сразу, сначала они помещаются в очереди пакетов. Но следует иметь в виду, что возможности этой функции не безграничны, при организации записи пакетов следует принимать меры, чтобы избежать сильной рассинхронизации.

2.11.3. Sample aspect ratio

У некоторых видеокамер, физическое разрешение (пиксель/мм) по горизонтали и вертикали не совпадают, что можно интерпретировать как неквадратные пиксели. Соотношение сторон пикселя описывается парой чисел и называется sample aspect ratio (SAR), для квадратного пикселя это будет 1:1, а вот для неквадратного иное. Если устройство отображения видеокадра имеет одинаковое разрешение по вертикали и горизонтали, то кадр с неквадратными пикселями будет отображаться с нарушением пропорций и, таким образом, для правильного отображения необходима коррекция. SAR являются одной из характеристик данных видеопотока и демультиплексоры умеют его определять. Если SAR известен, то необходимую коррекцию несложно выполнить с помощью rescaler или графа фильтров.

3. Сборка FFmpeg

Как и многие другие решения из мира Open Source, FFmpeg можно собрать самостоятельно, из исходных кодов, при этом сконфигурировав под свои задачи.

Процесс сборки FFmpeg достаточно традиционна для Unix-подобных ОС: используется командная оболочка shell, shell-скрипт configure (shebang #!/bin/sh), make-файлы и C-компилятор GCC. Но в случае FFmpeg эту задачу нельзя отнести к простым. Рассмотрим основные проблемы.

3.1. Внешние библиотеки

Первая проблема, которая возникает в процессе сборки FFmpeg — это большое количество внешних библиотек, используемых для расширения функционала. Код, который можно скачать с сайта проекта — это далеко не весь FFmpeg, многие важные компоненты находятся во внешних библиотеках и таких библиотек несколько десятков. Например, во внешних библиотеках находятся многие кодеры (libx264, libmp3lame), многие фильтры также требуют подключения внешних библиотек. Каждую такую библиотеку надо скачать (надо знать адрес!) и собрать (надо знать с какими опциями!) и только после этого собирать FFmpeg. Эти библиотеки не включаются в виде отдельных разделяемых библиотек, они компонуются статически, их код включается в библиотеки и приложения FFmpeg.

3.2. Конфигурирование и компиляция

Как обычно, для начала сборки самого FFmpeg надо запустить скрипт configure с необходимыми опциями. Этот скрипт поддерживает несколько сотен опций (их список можно получить, запустив configure с опцией --help), в частности каждая подключаемая внешняя библиотека требует своей опции (например --enable-libx264, --enable-libmp3lame). Понятно, что правильный выбор среди такого количества опций является не самой простой задачей.

Для успешной работы configure обычно нужно инсталлировать дополнительные пакеты (autotools, etc.), какие именно зависит от ОС, нужно искать инструкции для конкретной ОС.

Основная задача configure — это сгенерировать заголовочный файл определений config.h, который задает, какие компоненты следует включать в сборку, а также другие параметры компиляции. Этот файл подключается к make-файлам. Также в процессе работы configure анализирует некоторые исходные C-файлы, после чего генерирует другие исходные C-файлы. Примеры есть в предыдущей статье про кодеки.

После успешного выполнения configure надо выполнить команду make и дождаться успешного окончания (или сообщения об ошибке).

3.3. Сборка под Windows

Сборку под Windows можно выполнять в какой-нибудь ОС из семейства Linux с использованием кросс-компиляции, которую осуществляет MinGW. Сборку также можно делать непосредственно в Windows, для этого надо установить среду MSYS (или MSYS2). Эта среда предоставляет консоль, которая является по существу UNIX-подобной оболочкой для поддержки MinGW. В этом случае весь процесс происходит в Windows, управление осуществляется консолью MSYS. Есть еще другие варианты, см. соответствующую страницу сайта FFmpeg. Имеется хорошая статья — "FFmpeg compilation in Windows 10.pdf". Эта статья подробно описывает установку MSYS и сборку FFmpeg с минимальным количеством внешних библиотек (статью можно скачать с помощью поисковика). Под Windows можно скачать готовую сборку, см. раздел 4.3. Другие ссылки можно найти на соответствующей странице сайта FFmpeg.

3.4. Сборка для программирования с использованием FFmpeg API

Функциональность FFmpeg можно включить в проекты, написанные на C или C++. Для этого надо использовать так называемую разделяемую сборку (shared build), которая получается, если при конфигурировании использовать опции --disable-static и --enable-shared. В этом случае сборка включает восемь разделяемых библиотек (для Windows это *.dll файлы) и три приложения — ffmpeg, ffprobe и ffplay(для Windows это *.exe файлы). Также в состав сборки входят заголовочные C-файлы (*.h файлы) и файлы, необходимые для компоновки с разделяемыми библиотеками (для Windows это *.lib файлы). В C++ проектах заголовочные файлы FFmpeg API надо включать в блок extern "C" { }.

Отметим, что если при конфигурировании использовать опции --enable-static и --disable-shared, то в этом случае получается так называемая статическая сборка (static build), собираются только три приложения — ffmpeg, ffprobe и ffplay (код библиотек включается в приложения непосредственно). В этом случае возможности FFmpeg становятся доступными только из командной строки.

4. Разработки автора

4.1. Обертка над FFmpeg API и приложения

Основная разработка автора — это объектно-ориентированная обертка над FFmpeg API. Обертка написана на C++14 и в ней представлены классы для основных компонент FFmpeg — мультиплексоров, демультиплексоров, потоков, кодеков, конвертеров кадров, фильтров и графов фильтров. Есть классы, предназначенные для построения мультимедийных приложений разного уровня. Эта обертка реализована в виде разделяемой библиотеки FFmpegWrapper.dll. Конечным потребителем мультимедийной функциональности в основном были .NET приложения, поэтому были написаны необходимые .NET сборки для взаимодействия с FFmpegWrapper.dll и предоставляющие к ней более комфортный интерфейс. Также были написаны три GUI приложения (использовался WPF). Эти приложения позволяют получить информацию о компонентах FFmpeg, экспериментировать с разными медиаконтейнерами, кодеками, фильтрами, осуществлять транскодирование. Рассмотрим эти приложения более подробно.

4.1.1. Explorer

Приложение позволяет получить информацию о компонентах FFmpeg — демультиплексорах, мультиплексорах (форматах), протоколах, кодеках, фильтрах, bitstream-фильтрах. Также можно получить информацию о поддерживаемых форматах пикселей, форматах аудиоотсчетов, стандартных раскладках аудиоканалов и версиях библиотек и самой сборки.

Можно получить список всех форматов и соответствующих демультиплексоров и мультиплексоров. Можно получить информацию о демультиплексоре или мультиплексоре: имя, краткое описание, ассоциированные расширения файлов, опции для настройки и некоторые другие сведения.

Можно получить список всех протоколов. Для каждого из них можно получить имя, поддерживаемые направления (входной/выходной), опции для настройки.

Можно получить список всех идентификаторов кодеков и соответствующих декодеров и кодеров. Для идентификаторов кодеков можно получить имя, краткое описание и флаги. Для декодеров и кодеров можно получить имя, флаг «Experemental», форматы кадров, поддерживаемые режимы аппаратного ускорения, опции для настройки.

Можно получить список всех фильтров. Для каждого из них приводится количество имя, медиатип входов/выходов, поддержка команд, описание.

Можно получить список всех bitstream-фильтров. Для каждого из них приводится имя, поддерживаемые идентификаторы кодеков, опции для настройки.

Можно получить информацию о поддерживаемых форматах пикселей, форматах аудиоотсчетов и стандартных раскладках аудиоканалов.

Можно получить версию FFmpeg, версии библиотек, а также размеры библиотек.

4.1.2. Player

Это медиапроигрыватель, позволяющий воспроизвести любой медиаконтейнер, поддерживаемый FFmpeg. Доступны файлы, устройства видео- и аудиозахвата, а также сетевые источники. При необходимости можно задать формат и опции для медиаконтейнера, выбрать и настроить альтернативный декодер, задать фильтры. Отображается подробная информация о медиаконтейнере.

Есть возможность указать альтернативный декодер и для него формат выходного кадра и опции.

Для видеопотоков можно задать режим многопоточного декодирования, режим аппаратного ускорения или использование QSV/CUVID декодеров.

Можно задать фильтры для обработки кадров. (В частности можно задать фильтр для отображения субтитров.)

Можно просмотреть достаточно подробную информацию о проигрываемом контейнере: формат и другие характеристики контейнера, потоки и их основные характеристики, метаданные контейнера и потоков, главы.

Для исследования производительности видеодекодеров есть специальный режим benchmark.

Для аудиопотока можно отобразить осциллограмму. Есть возможность выбрать альтернативные устройства вывода звука.

4.1.3. Transcoder

Это приложение позволят извлечь пакеты из одного контейнеры и записать их в другой контейнер, при необходимости произведя перекодирование и обработку с помощью фильтра.

Можно использовать любой медиаконтейнер, поддерживаемый FFmpeg, при необходимости имеется возможность явно указать формат и опции.

В качестве целевого контейнера можно указать любой, который поддерживает FFmpeg. При необходимости имеется возможность явно задать формат и опции. Можно указать медиапотоки, которые необходимо переместить в целевой контейнер и при необходимости перекодировки задать имя и опции кодера.

При перекодировании можно изменить характеристики кадра (размер, частоту дискретизации, число каналов), а также использовать фильтр для дополнительной обработки.

В целевой контейнер можно добавить метаданные (как в сам контейнер, так и в потоки).

4.2. Справка, логи

Каждое приложение имеет справочный HTML-файл (вызывается по F1). Для справки по самому FFmpeg лучше всего воспользоваться документацией на сайте FFmpeg (вызывается из приложений по Ctrl+F1). Есть также offline документация, она находится в папке ffmpeg/doc, но она не такая удобная, как на сайте. В папке ffmpeg/dev/examples находятся примеры программирования на C с использованием FFmpeg API.

Работа приложений подробно логируется. Логи находятся в папке C:\Users\<user_name>\AppData\Local\dm-frox\FFmpegSuite\<app_name>\_LOGS, где <user_name> — это имя текущего пользователя, а <app_name> — это explorer или player или transcoder. Логи полезны для изучения логики работы приложений, также они необходимы для анализа ошибок. Логи являются простыми текстовыми файлами в кодировке UTF8.

4.3. Где скачать

Описанные решения организованы в проект FFmpegSuite, который можно скачать с облака по адресу https://disk.yandex.ru/d/DY_d6OL4wb7FsA или https://cloud.mail.ru/public/auqr/WnBxcujCE. После распаковки получим корневую папку FFmpegSuite, в которой находятся папки bin, doc, ffmpeg, params, sources и файл README.md. Исполняемые модули приложений и необходимые разделяемые модули находятся в папке bin/x64. Требования к окружению: ОС Windows 10, .NET Framework 4.8, Microsoft Visual C++ Redistributable package for Visual Studio 2022 (x64). Скорее всего, все будет работать под Windows 11 и Windows 7. Папка doc/help содержит справочные файлы для приложений. Папка ffmpeg содержит библиотеки FFmpeg и необходимые файлы для сборки приложений. Папка params содержит xml-файлы для настройки приложений. В папке sources находится исходный код проекта, из которого исполняемые модули можно собрать самостоятельно. Сборка осуществляется с помощью IDE Microsoft Visual Studio 2022. Приложения можно запускать непосредственно из IDE. Более подробное описание содержимого папок проекта находится в файле README.md.

Проект (кроме готовых модулей из bin/x64) можно также клонировать с GitVerse по адресу https://gitverse.ru/dm-frox/ffmpegsuite.git и далее собрать самостоятельно.

Используется версия FFmpeg 7.1 "Péter", выпущенная 2024-09-30. Готовая сборка скачана с www.gyan.dev, раздел release builds, latest release version: 7.1 2024-09-30, ссылка ffmpeg-release-full-shared.7z, скаченный файл ffmpeg-7.1-full_build-shared.7z.

4.4. Дисклеймер

FFmpeg — это набор свободных библиотек с открытым исходным кодом, которые распространяется по лицензиям GNU LGPL или GNU GPL, но без какой-либо гарантии. Вот текст, который присутствует в каждом заголовочном файле FFmpeg API:

FFmpeg is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU Lesser General Public License for more details.

(FFmpeg распространяется в надежде, что он будет полезен, но БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ; даже без подразумеваемой гарантии КОММЕРЧЕСКОЙ ПРИГОДНОСТИ или ПРИГОДНОСТИ ДЛЯ ОПРЕДЕЛЕННОЙ ЦЕЛИ. Дополнительные сведения см. в GNU Lesser General Public License.)

Ресурсы

Общие вопросы
    Сайт FFmpeg (eng).
    Википедия (рус).
    Wikipedia (eng).
    Большая коллекция ссылок (eng).
    Документация по UBUNTU (рус).
Компиляция и сборка
Руководство по компиляции и сборке (eng).
"FFmpeg compilation in Windows 10.pdf" (загружается через поисковик, eng).
Устройство видеокодеков
    Ян Ричардсон. Видеокодирование. H.264 и MPEG-4 — стандарты нового поколения. Москва: Техносфера, 2005.
    Как работает видеокодек. Часть 1. Основы.
    Как работает видеокодек. Часть 2. Что, для чего, как.
    Разбираем процесс видеокодирования на примере кодека H.264/AVC.
Статьи автора
Как добавить кодек в FFmpeg.
Как повысить скорость декодирования видеопотока в FFmpeg.

FFmpeg компоненты — назначение, входные/выходные данные, настройка

Оглавление