Исторически сложилось так, что автору в течение достаточно длительного периода приходилось разрабатывать мультимедийную поддержку для Windows-приложений. Вначале использовался DirectShow, но в какой-то момент произошло знакомство с проектом FFmpeg, который привлек своей мощью, универсальностью и гибкостью. В процессе работы с FFmpeg было написано немало кода: обертка на C++ для FFmpeg API, а также ряд утилит и GUI решений для .NET. Когда эти результаты достигли определенной степени зрелости, возникло желание поделиться ими с программистским сообществом и заодно изложить свое понимание архитектуры FFmpeg и компьютерного мультимедиа вообще.

Работа с видео *
Все о создании и обработке видео
Новости
Adobe наконец-то выпустила собственный ИИ-генератор видео. Обзор нового инструмента

Сегодня компания Adobe сообщила, что ее ИИ-модель для генерации видео Firefly теперь находится в открытой бета-версии. Модель обучена только на полностью лицензированном контенте, что делает ее гораздо более безопасным вариантом в условиях постоянно растущей конкуренции генераторов видео на базе ИИ.
Если вы подписались на их программу раннего доступа, вы должны были получить уведомление о том, что Firefly теперь доступна для публичного использования.
Шаблон сценария для съемки короткого ролика

Вроде бы для съемки короткого видео сценарий не нужен, ведь и так все понятно. А если все понятно, то зачем тратить время?
Постараюсь показать, что это не так, и поделюсь шаблоном сценария, который мы сами используем для подготовки видео.
Функция Elements в Kling AI: как ее использовать для генерации креативных видео с любым фоном и персонажами

Kling AI переопределяет творческие возможности благодаря новой функции Elements в модели 1.6 для генерации видео из изображений. Благодаря этому обновлению пользователи могут загружать изображения людей, животных, предметов или сцен в качестве элементов, а затем управлять их действиями и взаимодействием с помощью промптов.
Результат? Потрясающие видеоролики, которые органично вписываются в ваше творческое видение.
Истории
ffmpeg: сохраняем прогресс конвертации

Многие из нас периодически сталкиваются с необходимостью конвертации видео: в другое разрешение, в другой формат или др.
Но у процесса конвертации есть нехорошая черта: он занимает много времени. Иногда очень много.
И вот когда длительность переваливает за десяток часов ... утилита конвертации не поддерживает функции останова и перезапуска ... становится немного неуютно.
Рассмотрим более реальную ситуацию: есть популярный пакет утилит ffmpeg для конвертации. Если поискать способы сохранения прогресса, чтобы после останова/крэша/сбоя продолжить конвертацию не с начала, а уже с какой-то точки сохранения, то ... не находим. Очевидно, что многие вещи можно обойти, облегчить, обыграть другими средствами. Но всё равно хочется восстановления.
Итак, если способа нет, то его нужно создать.
Вот в статье и описан способ, как для ffmpeg сохранить прогресс и продолжить работу с точки сохранения.
Lua-скриптинг в mpv-плеере

Недавно у меня возникла необходимость непременно вырезать фрагмент из видео без перекодирования, и, разочаровавшись в очередной раз в LosslessCut, я отправился искать альтернативы.
На Reddit-е я наткнулся на пост, где утверждалось, что для этого можно использовать скрипт mpv-cut, который работает без внешнего графического интерфейса и дополнительных программ.
При ближайшем рассмотрении mpv-cut оказался скриптом на lua, который позволял вырезать кусок из видео прямо в процессе просмотра в плеере mpv. Я как-то не предполагал, что mpv-плеер при всей своей минималистичности поддерживает скрипты, которые позволяют расширять его функциональность. И решил это дело тщательно разъяснить.
STM32F4xx + DCMI + USB Custom (CDC + UVC)
В этой публикации рассмотрено использование микроконтроллера STM32F4xx для создания устройства с поддержкой DCMI (Digital Camera Interface), USB custom CDC+UVC (Communication Device Class + USB Video Class). Показано, как настроить и интегрировать эти функции с использованием STM32CubeMX и STM32CubeIDE, а также предоставлена ссылка на проект.
Результаты:
Продемонстрирована успешная работа устройства, которое может передавать изображения и видео через USB, а также использовать виртуальный COM-порт для обмена данными с компьютером.
Как постараться* снимать видео на телефон как на профессиональную камеру: часть 2

Прошлый пост на эту тему вы засыпали разными комментариями. Благодарю вас, что читаете, размышляете, критикуете и советуете. Всегда интересно узнать мнение коллег и просто неравнодушных людей 😉
Я же со своей стороны решил продолжить тему видеосъемки. Сегодня поделюсь еще несколькими лайфхаками. Также обязательно затрону моменты, о которых вы упоминали в комментариях: баланс белого, стабилизацию и другие нюансы.
Двое из ларца на CES 2025: стандарты HDMI 2.2 и DisplayPort 2.1b

На техновыставке CES 2025, кроме прочих hi-tech чудес, представлены HDMI 2.2 и DisplayPort 2.1b. Обновленные технологии обещают всякое — от сверхчеткой графики до плавного воспроизведения видео с высоким FPS. Геймеры, киноманы, создатели контента и просто любители крутых гаджетов наверняка заинтересуются. Давайте разберемся, в чем разница между DP и HDMI, что привнесут новые стандарты и когда появятся первые устройства с их поддержкой.
Xiaohongshu: новая замена TikTok и запрещенного Instagram, которая уже порвала американский App Store

Пока пользователи из России досматривали в TikTok ролики, опубликованные до 2022 года, западный мир не стал дожидаться его полной блокировки и взял, да и нашел ему альтернативу. Им стало китайское приложение под названием Xiaohongshu (Сяохуншу). И это несмотря на то, что у сервиса нет ни англоязычного названия, ни адаптированного интерфейса, ни даже функции перевода, что не помешало ему возглавить топ загрузок американского App Store. А если разобрались американцы, почему бы не попробовать и нам? Тем более, что помимо ТикТока нам надо найти, чем заменить еще и запрещенный в России Инстаграм.
Демонстрация виртуального дисплея без задержки с DXGI. Или как получить второй монитор из ноутбука/телефона/планшета

Разберем несколько существующих методов захвата экрана и способы трансляции по сети с минимальной задержкой как если бы это был второй монитор подключенный к отдельному порту.
300k видеозаписей, наводим порядок

После того как мне удалось успешно разобраться с аудиозаписями и научиться легко клеить видео для домашнего видеоархива, мне пришла мысль: а почему бы все это не совместить? Можно ведь таким же образом распознать голоса на видео, сделать поиск, выложить куда‑нибудь для удобства доступа и резервирования. Сказано — сделано (ага, сейчас: «вошли и вышли, приключение на 20 минут»).
6 внутренних факторов, влияющих на эффективность распознавания лиц с видеокамер

Всем привет! В предыдущей статье я уже рассказывал о том, как внешние факторы могут влиять на скорость и точность работы систем распознавания лиц на видеопотоках. Сегодня речь пойдет о не менее важных внутренних аспектах — архитектуре системы и правильном выборе и настройке оборудования.
Ближайшие события





Как автоматизировать хобби или как записывать таймлапсы

Пару лет назад у меня завелось хобби - я начал коллекционировать восходы. Тогда я поселился в доме, и которого открывался широкий вид на небо. Однажды, в очередной раз задержавшись за делами до восхода, я вышел на балкон и восхитился красоте.
Записал пару минут на телефон, и на этом успокоился. Но в следующий раз ночью выставил на балкон экшн-камеру. Так все и завертелось.
Восход - это очень красиво, но не любой. Красоту восходу придают облака, при достаточной плотной, но не сплошной, облачности восход становится уникальным, красивым и завораживающим.
Дальше - мой длинный путь к автоматизации записи восходов. В ролях Home Assistant, Zoneminder, ffmpeg и немного скриптов.
MMAudio: Генерация звука для видео с помощью ИИ

Всем привет! Исследователи из Университета Иллинойса и Sony AI представили интересный проект MMAudio - нейросеть для создания звукового сопровождения к видео. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист, и сегодня я хочу рассказать об этой технологии подробнее и поделиться нашей портативной версией. Главная особенность системы в том, что она может генерировать звуки не только по текстовому описанию, но и на основе изображения или видео.
Видео монтаж путем нейронок и OpenCV

Расскажем, как мы пришли к этому решению, перерисовали схемы нейронных сетей в понятной и эстетичной форме, добавили визуализации, чтобы сложные идеи стали нагляднее. Обсудим, как можно было сделать систему гибче, дешевле и создать больше возможностей для экспериментов
Алгоритм перевода видео/аудио с любого языка на любой язык в 10 шагов
Допустим у вас есть задача: перевести свой ютуб канал с русского на английский, перевести свои корпоративные обучалки на другие языки... (напишите, пожалуйста, ещё идеи в комментариях, кому может быть полезен данный алгоритм)
Для этого вам потребуется какой-то сервис, который для вас переозвучит видео. Проведя исследование, я пришёл к выводу, что сейчас самый лучший по качеству сервис предоставляет (раск) rask.ai у них своя нейронка, и стоит их услуга примерно 100$ за 1 час переводов на 1 язык.
В этой статья я расскажу вам об алгоритме перевода видео без специализированных сервисов на любые языки, гораздо дешевле чем это делает раск, но чуть хуже.
Как мы делаем Кинопоиск доступнее. SDH и тифлокомментирование

Вы когда-нибудь задумывались, как незрячий человек смотрит фильмы, а глухой зритель — понимает атмосферу сцены без звуков? В Кинопоиске теперь это не просто возможно — это удобно и доступно. Меня зовут Настя, я отвечаю за продуктовое направление Инклюзии в Яндексе. Вместе с командой мы работаем над тем, чтобы каждый, независимо от особенностей здоровья, мог наслаждаться фильмами и сериалами. В этом посте я расскажу, как мы делаем Кинопоиск местом, где кино доступно для всех.
Последний год мы активно ведем работу над доступностью Кинопоиска. Он стал тринадцатым сервисом Яндекса, адаптированным для незрячих и слабовидящих людей — это случилось в начале 2024 года. Это означает, что сервис доступен для использования с помощью специальных программ экранного доступа (другими словами — скринридеров), которыми пользуются незрячие пользователи.
А ещё контент Кинопоиска начал пополняться субтитрами для глухих и слабослышащих людей и тифлокомментариями.
Вот как выглядит видео с SDH и тифлокомментариями.
Синхронизация событий в видеотрансляциях

Важным аспектом интерактивных видеотрансляций является синхронность всех происходящих событий. Как рассинхронизация аудио- и видеодорожек, так и несвоевременное отображение событий в интерфейсе могут привести к неудобствам и негативному пользовательскому опыту.
Статья посвящёна синхронизации событий в видеотрансляциях с учётом задержек в сетевых потоках, которые могут вызывать рассинхронизацию между изображением и элементами трансляции. Рассматриваются методы синхронизации и типичные проблемы, возникающие при их реализации.
Искусственный интеллект в 3D-моделировании

На сегодняшний день искусственный интеллект и нейросети уверенно проникают в ряд бизнес-процессов во множестве предприятий. Уже есть кейсы внедрения в такие области бизнеса как поддержка пользователей, оптимизация разработки ПО, локальные ассистенты и поисковики по внутренним базам знаний компаний.
Но технология так же не обходит стороной задачи моделирования, проектирования и рендера моделей. Искусственный интеллект существенно оптимизирует работу с 3D-моделями, решая проблемы трудоёмкости, нормоконтроля и временных затрат.
В этой статье мы разберём интеграцию нейросетей в процессы 3D-моделирования, рассмотрим конкретные задачи, в которых ИИ показывает существенную производительность и разберём реальные кейсы внедрения.