Работа с видео *

Все о создании и обработке видео

53,22

Рейтинг

СтатьиПостыНовостиАвторыКомпании

denis-19

25 апр в 10:154.3K

Информационная безопасность * Open source * Работа с видео * ВидеотехникаСетевое оборудование

Открытый проект Viseron улучшает поток от обычных видеокамер с помощью нейросетей:

запись включается только в момент происшествия. Например, в кадре прошёл человек или животное;
умеет распознавать лица и объекты;
может собрать в одну сеть камеры от разных брендов;
все данные сохраняются локально;
поддерживает все популярные бренды: Hikvision, Dahua, Reolink и другие;

SomeEditor

21 апр в 12:152.1K

Блог компании Yandex Cloud & Yandex InfrastructureРабота с видео * IT-инфраструктура * Облачные сервисы * Видеоконференцсвязь

Обновили Yandex Cloud Video — облачную платформу для управления видеоконтентом

Cloud Video — сервис на базе видеоплатформы Яндекса, созданной командой Yandex Infrastructure. В новой версии появились возможности для защиты и быстрой обработки контента. Теперь можно добавлять логотипы в видео, загружать ролики с других площадок и управлять задержкой и стабильностью видеопотоков.

Защита контента

В Cloud Video появилась возможность добавлять логотипы в загруженное видео. Это позволит защищать контент от переиспользования и применять новые сценарии для брендирования и рекламы.

Стабильный и быстрый просмотр без задержек

Появились возможности самостоятельно управлять задержками онлайн‑трансляций и настроить мониторинг стабильности сигнала, чтобы отслеживать его в процессе эфира. На графиках можно увидеть, были ли проблемы с сигналом трансляции в конкретный момент времени.

Также видео можно выкладывать быстрее — загрузка не задержится из‑за транскодирования. Контент загрузится в оригинальном качестве, а система будет обрабатывать его параллельно.

Новые интеграции

Теперь можно переносить видеоконтент с других хостингов через службу поддержки. Для вузов и образовательных компаний появилась возможность внедрять плеер в LMS‑системы. Это поможет быстрее интегрировать видеоконтент в программы онлайн‑обучения.

denis-19

20 апр в 11:363.4K

Работа с видео * Визуализация данных * Машинное обучение * Искусственный интеллектБудущее здесь

В Японии представили спортивную визуальную систему Fencing Visualized, которая в с помощью ИИ в режиме реального времени отслеживает движение шпаг и спортсменов на дуэлях, рисуя их цветные шлейфы. Технология работает через компьютерное зрение без датчиков и маркеров. Дополнительно система распознаёт приёмы фехтовальщиков и показывает их на экране.

GarantexAi

27 мар в 12:38121

Работа с видео * Машинное обучение * Искусственный интеллект

CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance

CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance

CapCut запустил Video Studio — canvas-интерфейс, где AI-агент пишет сценарий, генерирует раскадровку и собирает финальное видео. Под капотом — Seedance 2.0 от ByteDance. Разбираю, что здесь реально работает, а что пока маркетинг.

Что запустили и для кого

Video Studio появилась в веб-версии CapCut как отдельный режим с бесконечным холстом. Целевой формат — шортсы, рекламные креативы, обучающие ролики. Встроенный агент берёт промпт, генерирует идею, разбивает на сцены, создаёт изображения и видеофрагменты. Функция Omni Reference отвечает за консистентность персонажей и стилистики между кадрами.

Гео-ограничение на старте: Юго-Восточная Азия, Ближний Восток, Африка, Латинская Америка. Когда откроют для остальных — не говорят.

Seedance 2.0 — что известно про модель

Seedance — видео-модель ByteDance, которая конкурирует с Runway Gen-3, Kling и Pika. По внутренним бенчмаркам ByteDance, версия 1.0 показывала сопоставимое качество с Kling 1.5, но отставала от Gen-3 по реалистичности движений.

Seedance 2.0 анонсировали вместе с Video Studio. Ключевое обновление — улучшенная консистентность персонажей через reference-изображения. Независимых бенчмарков пока нет. Длина генерации — до 10 секунд за запрос, что стандартно для текущего поколения моделей.

Где реальная польза

Для коротких форматов это может работать. 15–30 секундный ролик из 3–5 склеенных генераций — реалистичный сценарий. Особенно для абстрактных визуалов, анимации, продуктовых демо без живых людей.

Omni Reference — интересная фича. Консистентность персонажей — главная боль генеративного видео. Если работает хотя бы на 70–80% случаев без ручной коррекции — это существенно сокращает время продакшена.

Интеграция с редактором CapCut. Генерацию можно сразу дорабатывать в привычных инструментах: склейка, субтитры, эффекты. Не нужно экспортировать и импортировать между приложениями.

Где пока слабо

Агентная часть переоценена. «AI пишет сценарий» — на практике это генерация структуры по промпту, не креативная работа. Качество сильно зависит от детализации входного запроса. Назвать это полноценным сценаристом — маркетинговое преувеличение.

10 секунд — жёсткий потолок. Для рекламы и шортсов достаточно, для обучающих роликов на 2–3 минуты придётся склеивать 12–18 фрагментов. На стыках будут проблемы с консистентностью, даже с Omni Reference.

Гео-ограничения — не случайность. ByteDance запускает в регионах с меньшим регуляторным давлением. Для EU и US нужны другие compliance-процессы. Сроки непредсказуемы.

Кредитная модель — чёрный ящик. «Насыпают бесплатных кредитов на пробный период» — классика. Сколько стоит минута готового видео после триала — информации нет. По аналогии с Runway: $15–20 за минуту качественной генерации при активном использовании.

Контекст рынка

Генеративное видео в 2024–2025 — гонка за консистентность и длину. Runway выпустил Act-One для персонажей, Pika добавил lip-sync, Kling работает над 60-секундными генерациями. Video Studio от CapCut — ответ ByteDance: не лучшая модель, но удобная интеграция в существующую экосистему с 500M+ пользователей.

Для продакшен-команд, которые уже используют CapCut для монтажа шортсов, порог входа минимальный. Для серьёзного видеопродакшена — пока эксперимент, не замена пайплайну.

Если честно

Video Studio — логичный шаг для CapCut: монетизация базы через генеративные фичи. Для быстрых креативов и тестирования идей — полезно. Для стабильного продакшена с предсказуемым качеством — рано. Главный вопрос не «когда откроют для всех регионов», а сколько будет стоить после триала и насколько стабильно работает Omni Reference на реальных задачах.

Кто уже тестировал Seedance (в TikTok или через API) как оцениваете консистентность персонажей по сравнению с Runway или Kling? Интересует именно многокадровый продакшн, не единичные генерации.

GarantexAi

7 мар в 17:2497

Работа с видео * Машинное обучение * Научно-популярноеИскусственный интеллектБудущее здесь

NotebookLM Cinematic Video Overviews

Google тихо выкатил апдейт, который меняет представление о том, что может делать «блокнот с ИИ». NotebookLM получил фичу Cinematic Video Overviews — и это не очередной генератор слайдов с голосом поверх. Это полноценный пайплайн мультимодельного видеопродакшна, упакованный в один клик.

Загружаете PDF, конспект лекции, транскрипт подкаста — получаете на выходе анимированный мини-документальный ролик с нарративом, визуальными сценами и озвучкой. Звучит как маркетинговый буллшит, но давайте разберём, что там реально под капотом.

Контекст: от подкастов к видео

Если вы следили за NotebookLM, то помните, как в 2025 году все сходили с ума по Audio Overviews — фиче, которая генерировала подкаст-стайл диалоги двух AI-ведущих по вашим документам. Штука оказалась неожиданно виральной: люди загружали научные статьи и получали natural-sounding обсуждения, которые реально помогали усвоить материал.

Логичным продолжением стали Video Overviews (июль 2025) — но по факту это были озвученные слайд-деки. Полезно, но не wow. Cinematic Video Overviews — это принципиально другой уровень.

Архитектура: три модели, одна задача

Самое интересное — как Google это реализовал. Вместо одной end-to-end модели они собрали пайплайн из трёх специализированных моделей, каждая со своей ролью:

Gemini 3 — «режиссёр»

Gemini выступает как оркестратор всего процесса. По заявлению Google, модель принимает «сотни структурных и стилистических решений» для каждого ролика: определяет нарратив, визуальный стиль, формат подачи, темп и даже итерирует собственную работу для обеспечения консистентности.

По сути, Gemini выполняет роль creative director'а: анализирует загруженные источники, выделяет ключевые идеи, строит storyline и раскадровку, а затем координирует работу остальных моделей.

2.Nano Banana Pro — генерация визуальных референсов

Эта модель отвечает за создание статичных визуалов — референсных изображений, на основе которых потом строится анимация. По сути, это image generation слой пайплайна.

3.Veo 3 — видеоанимация

Последний элемент — видеомодель Google, которая превращает статичные сцены в плавные анимации. Veo 3 — это тот же движок, что Google демонстрировал для генерации видео, но здесь он интегрирован в контекст конкретного нарратива.

Почему это архитектурно интересно

Подход «оркестратор + специализированные модели» — не новый, но в продакшн-контексте видеогенерации из пользовательских данных он применяется впервые на таком уровне.

Обратите внимание на несколько вещей:

Retrieval-grounded generation. Видео привязано к загруженным источникам. Это не галлюцинация, замаскированная под красивый ролик — система сохраняет citations, и каждое утверждение в видео можно проследить до конкретного документа. Для академических и корпоративных сценариев это критично.

Итеративная self-refinement. Google явно указывает, что Gemini «refines its own work to ensure consistency». Это намекает на multi-pass генерацию, где модель оценивает собственный output и корректирует его — подход, который мы видим в reasoning-моделях, но здесь применённый к мультимодальному контенту.

Контекстное управление. Пользователь может задать промпт вроде «Создай трёхминутный explainer для нетехнической аудитории» или «Сравни два подхода и покажи trade-offs» — и система адаптирует весь видеоролик под этот запрос.

Практические сценарии

Где это реально полезно уже сейчас:

Образование. Преподаватель загружает конспекты лекций, выдержки из учебника и пару диаграмм — на выходе получает визуальный primer с размеченными иллюстрациями. Можно использовать как подготовку к тесту или как дополнительный материал для студентов.

Аналитика и research. Аналитик скармливает десяток отчётов и стенограмм — получает нейтральный брифинг, который поднимает ключевые допущения, контраргументы и неопределённости. Для людей, которым нужен контекст быстро, это серьёзная экономия времени.

Фича доступна только для Google AI Ultra ($249.99/мес)

-4

GarantexAi

7 мар в 08:54394

Open source * Работа с видео * Софт

МОНТАЖЁРЫ ВИДОСОВ, ВАМ ПОДГОН!

Вышел Frame это полноценный инструмент для работы с видео, который сжимает, конвертирует и апскейлит без нервов и подписок

Привет, Хабр.

Если вы хоть раз пытались сжать видео перед отправкой в мессенджер, конвертнуть запись вебинара в нормальный формат или вытянуть качество из старого скринкаста — вы знаете эту боль. Либо ставишь монструозный редактор ради одной кнопки, либо заливаешь файл в очередной онлайн-конвертер с рекламой казино и лимитом в 100 МБ.

Frame — это попытка сделать инструмент, который решает три базовые задачи с видео и не усложняет жизнь всем остальным.

Что делает?

Три вещи, и делает их нормально:

Сжатие без визуальной потери качества. Закидываете файл, получаете на выходе видео, которое весит ощутимо меньше, а разницу на глаз не видно. Полезно, когда нужно отправить ролик по почте или освободить место на диске.

Конвертация между форматами. MOV в MP4, AVI в WebM — стандартная рутина, которая почему-то до сих пор вызывает проблемы. Здесь она решается в пару кликов.

Апскейл видео. Берёте запись с вебки 720p или старый скринкаст и получаете картинку повыше качеством. Не магия, но для переиспользования архивных материалов — вполне рабочий вариант.

Почему это может быть интересно

Работает локально. Никакого облака — файлы не покидают вашу машину. Для тех, кто работает с NDA-контентом или просто не любит отдавать свои видео непонятным сервисам, это важно.

Открытый код. Репозиторий на GitHub, можно посмотреть, что под капотом, форкнуть, допилить под себя. Никаких водяных знаков, подписок и «разблокируйте PRO за $9.99/мес».

Русский интерфейс. Для инструмента, у которого целевая аудитория — не только разработчики, это реально снижает порог входа. Не нужно гуглить, что значит «Bitrate Mode» в третьем подменю.

Windows и macOS. Один и тот же интерфейс на обеих платформах, без плясок с зависимостями.

Кому пригодится

Тут всё довольно прагматично:

Монтажёрам — для быстрого препроцессинга, когда не хочется запускать Premiere ради конвертации одного файла.
Контент-мейкерам — подготовить ролик под требования площадки перед публикацией.
Фрилансерам — отдать клиенту видео в нужном формате без лишних вопросов.
Всем остальным — сжать запись лекции, конвертнуть видео с телефона, привести в порядок архив.

Пара слов про UX

Основная идея — минимум действий до результата. Выбрал файл, выбрал что сделать, нажал кнопку. Без таймлайнов, без десяти вкладок с настройками кодеков. Если вам нужен тонкий тюнинг — это не сюда. Если нужно быстро решить задачу — самое то.

Итого

Frame не претендует на замену FFmpeg для хардкорщиков или Adobe Media Encoder для продакшена. Это утилита для повседневных задач с видео, которая делает своё дело, не собирает данные, не просит денег и не заставляет вас разбираться в документации.

Код открыт, инструкция на русском — можно просто попробовать.

А чем вы пользуетесь для рутинных операций с видео? Интересно, у кого какой стек сложился.

kvk-2019

24 фев в 12:114.2K

Работа с видео *

На GitHub сегодня обновил батник для скачивания видео через yt-dlp. Текущую версию попытался продублировать здесь:

@set @x=0 /*
@echo off
chcp 65001 >nul
setlocal
set VideoURL=gaRy9U0yiSA
set head=
set suffix=
set series=%%(series)s. 
call :set_template
set format=b
set enable_format_recommendations=1
set extension=mov
set AppPath=D:\kvk\Utilities\GitHub\yt-dlp\yt-dlp.cmd
if not exist %AppPath% set AppPath=yt-dlp.exe
if not -%1- == -- (set format=%1 & set enable_format_recommendations=0)
set tempFileName=%random%.tmp
call %AppPath% -o "%%template:.!=%%" --windows-filenames --socket-timeout 45 --print-to-file filename %%tempFileName%% --skip-download %%VideoURL%%
if not errorlevel 0 if exist %tempFileName% del /q %tempFileName%
if not exist %tempFileName% exit /b
cscript /nologo /e:javascript "%~dpnx0" %tempFileName%
set /p filename=<%tempFileName%
set processed_series=%filename:!.=!%
if not "%processed_series%" == "%filename%" (setlocal enabledelayedexpansion & set series=!series:~0,-2! & setlocal disabledelayedexpansion & call :set_template & set filename=%processed_series%)
set filename_without_series=%filename:NA. =%
if not "%filename_without_series%" == "%filename%" (set series=& call :set_template & set filename=%filename_without_series%)
setlocal enabledelayedexpansion
set filename=!filename:.mp4=.%extension%!
set filename=!filename:.webm=.%extension%!.txt
setlocal disabledelayedexpansion
echo %VideoURL% > "%filename%" && del /q %tempFileName%
cscript /nologo /e:javascript "%~dpnx0" "%filename%"
echo.>> "%filename%"
call :size "%filename%"
set tempsize=%filesize%
call %AppPath% --socket-timeout 45 --print formats_table %%VideoURL%% >> "%filename%"
if not errorlevel 0 exit /b
call :size "%filename%"
if %tempsize% == %filesize% exit /b
for /f %%i in ('cscript /nologo /e:javascript "%~dpnx0" "%filename%" /FORMATRECOMMENDATIONS:%enable_format_recommendations%') do if defined enable_format_recommendations if "%enable_format_recommendations%" == "1" if not "%%i" == "" set format=%%i
if -%1- == ---- exit /b
start "yt-dlp: %VideoURL%" %AppPath% -o "%template%" --split-chapters --postprocessor-args "SplitChapters+ffmpeg:-map_metadata -1" --video-multistreams --audio-multistreams --windows-filenames --remux-video %extension% --concurrent-fragments 10 --socket-timeout 45 --abort-on-unavailable-fragment --exec "pause " --embed-metadata --format %format% %VideoURL% ^&exit/b
:set_template
set template=%head%%series%%%(title)s [%%(id)s]%suffix%.%%(ext)s
exit /b
:size
set filesize=%~z1
goto:eof */

var fso = new ActiveXObject("Scripting.FileSystemObject"), fName = "", newText = "";
if(WSH.Arguments.Unnamed.Count && fso.FileExists(fName=WSH.Arguments.Unnamed(0))){
	with(new ActiveXObject("ADODB.Stream")){Type=2; Mode=3; Open(); Charset="UTF-8"; LoadFromFile(fName);
		Position=0; var newText=ReadText().replace(/\s*$/, ""); Close();
		newText = ((isTemp=/^\d+\.tmp$/.test(fName)) ? newText.replace(/\(/g, "{").replace(/\)/g, "}") : newText.replace(/\r\n|\n/g, "\r\n"));
		fso.DeleteFile(fName);
		Open(); Charset="UTF-8"; Position=0; WriteText(newText + (isTemp ? "" : "\r\n")); SaveToFile(fName); Close();
	}
}
if(1*WSH.Arguments.Named.Item("FORMATRECOMMENDATIONS") && newText){
	var line, lines = newText.split("\r\n"), recommended_audio_format = "", recommended_video_format = "";
	for(var lineIndex in lines){
		if(/audio only/.test(line=lines[lineIndex])){
			if(/(^hls\S+)\s.+audio only.*$/.test(line))recommended_audio_format = RegExp.$1;
			else if(!/^hls/.test(recommended_audio_format) && /(^\S+)\s+m4a/.test(line))recommended_audio_format = RegExp.$1;
		} else if(/video only/.test(line)){
			if(/(^hls\S+)\s.+video only.*$/.test(line))recommended_video_format = RegExp.$1;
			else if(!/^hls/.test(recommended_video_format) && /(^\S+)\s+mp4\s+1920x1080\s+.*avc1/.test(line))recommended_video_format = RegExp.$1;
		}
	}
	WSH.echo(recommended_audio_format && recommended_video_format ? recommended_audio_format + "+" + recommended_video_format : "");
}

denis-19

23 фев в 08:285.3K

Работа с видео * Машинное обучение * Облачные сервисы * Искусственный интеллектСоциальные сети

Обновлён открытый проект PersonaLive. Этот ИИ который анимирует лицо в реальном времени для стримов и видео. Суть простая: загружаете портрет и «движущее» видео (или вебку), а нейросеть переносит мимику, повороты головы и речь на фото. На выходе получается будто человек с картинки реально говорит и двигается. Главная киллер‑фича: система может генерировать длинные ролики без обрывов и работать почти в лайве. Технологию уже приняли на конференцию CVPR-2026, исходный код решения опубликован на GitHub под лицензией Apache License 2.0. Потенциально это новый уровень для VTuber‑стримов, цифровых ведущих и виртуальных персонажей.

denis-19

20 фев в 06:355.1K

Open source * Системное администрирование * Работа с видео * БраузерыСофт

Экс‑разработчик Ubisoft представил открытый видеоредактор FreeCut, который работает в браузере и позволяет собирать сложные видео, улучшает их качество, накладывает эффекты и субтитры.

Проект умеет:

сокращать, урезать, соединять видосы, добавлять картинки, другие ролики, формы, текст;
добавлять анимацию, создать любую композицию и реализовать всевозможные идеи;
CSS‑эффекты, ключевые кадры, переходы, фильтры, коррекция цвета, перемещение камеры, 3D;
экспортировать во всех самых популярных форматах: MP4, MOV, WebM, MKV;
аудио принимает в форматах: MP3, AAC, WAV;
поддержку кодеков: H.264, H.265, VP8, VP9, ProRes;
сжимает видео без потери качества.

atomlib

14 фев в 05:116K

Работа с видео * Машинное обучение * КопирайтНаучно-популярноеИскусственный интеллект

ИИ для генерации видео Seedance 2.0 вышел 12 февраля и немедленно приковал к себе внимание высоким качеством работы. Продукт выпустила ByteDance Seed Team, то есть исследовательский отдел компании-владельца нейродегенеративного приложения TikTok.

На самом деле Seedance 2.0 — это такой типичный видеогенератор. Описывается он как единый мультимодальный аудио- и видео- архитектурный контур: модель на входе принимает текст, изображения, аудио и видео (причём пользователь может накидывать до 9 картинок, 3 видеофрагментов и 3 аудиоклипов как референсы), а на выходе выдаёт до 15 секунд ролика с синхронизированным звуком.

Что необычно, так это высокое качество контента на выходе и готовность модели игнорировать любые нормы копирайта и схожести с существующими людьми. По Сети разошлись видеоролики, где Том Круз дубасит Брэда Питта и вопрошает, зачем было убивать Джефри Эпштейна. От людей, хоть немного сведущих в ИИ, звучат умные слова «оверфитинг» и «меморизация», хотя скорее речь нужно вести про безбашенность китайцев и отсутствие политик безопасности.

Пока в Голливуде осуждают продукт или даже в судебном порядке требуют немедленно прекратить безобразие, пользователи раскуривают тему. Независимый режиссёр Чарльз Кёрран преобразовал в видеоформат известный мем про стратегическую бесполезность генеративного искусственного интеллекта.

Заметна не только высокая степень схожести внешности актёров и узнаваемость их голосов, но и свобода в отношении откровенного контента. Далеко не каждая модель искусственного интеллекта согласится работать с женской грудью такого нескромного калибра.

При этом даже в такой простой диалоговой сцене есть косяки генерации. К примеру, родинка на шее Натали Портман исчезает при монтажной склейке.

denis-19

12 фев в 11:265.1K

Open source * Работа с видео * Облачные сервисы * Социальные сети

Представлен открытый глобальный дашборд World Monitor, который собирает новости, видео и события со всей планеты в одном интерфейсе. На интерактивной карте собрано больше 25 слоёв данных: конфликты, протесты, ЧП, перемещения техники, технособытия и прочие горячие новости. ИИ в реальном времени делает сводки, подсвечивает нестабильные регионы и показывает аномалии раньше новостных лент. Всё работает в реальном времени: видео с Bloomberg, Sky News, Al Jazeera и CNBC и данные со спутников объединяются, анализируются и визуализируются на карте.

denis-19

12 фев в 02:017.3K

Работа с видео * Машинное обучение * Управление продажами * Облачные сервисы * Искусственный интеллект

Китайские стримеры молча стоят перед камерой — речь, интонации и даже мимику за них генерируют нейросети. Полностью заменить человека нельзя, так как платформы требуют присутствия реального человека в кадре. Если в эфире только виртуальный аватар, алгоритмы режут охваты или банят трансляцию.

denis-19

3 фев в 04:405.4K

Работа с видео * Машинное обучение * Облачные сервисы * Искусственный интеллект

xAI выпустила нейросетевую модель Grok Imagine 1.0 для генерации видео длиной до 10 секунд с поддержкой разрешения 720p. Релиз объединяет наработки предыдущего генератора изображений Aurora с новыми возможностями анимации. Разработчики отмечают, что нейросеть точнее следует текстовым промптам, создаёт более проработанные кадры и лучше справляется с плавностью движений по сравнению с предшественницей. В Grok Imagine 1.0 также доработали аудиосоставляющую: фоновая музыка теперь «идеально синхронизируется» со сценой, а эмоциональный спектр персонажей стал шире. Для доступа к максимальным настройкам качества и длительности пользователям потребуется оформить платную подписку.

denis-19

3 фев в 04:215.8K

Open source * Системное администрирование * Работа с видео * Python *

Открытый проект 8mb.local — Self‑Hosted GPU Video Compressor умеет сжимать видео любых размеров в десятки раз. Нужный размер пользователь выбирает сам, а компрессор подстроится. По возможности сохраняет качество. Можно выбрать кодек, битрейт и даже обрезать видос во встроенном редакторе. Всё работает локально.

denis-19

26 янв в 04:165.8K

Open source * Работа с видео * Обработка изображений * Машинное обучение * Искусственный интеллект

Представлена открытая ИИ-студия для работы с видео и лицами — VisoMaster Fusion, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок.

BlakeStone

24 дек 2025 в 10:235.4K

Работа с видео * Будущее здесь

Тестируем нейросеть «Kandinsky» от Сбера. Повод для тестирования крайне подходящий – приближаются новогодние праздники, время поздравлять клиентов компании. Желательно с использованием какой-нибудь красивой анимации.

Приступим?

Ищем точку входа в нейросеть. Увы, с первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу.

С первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу

По счастью, один из советов Яндекса – GigaChat: он открывается с ПК и вполне функционален. Второй по счёту на стартовом экране GigaChat красуется кнопка «Создайте видео» – вот оно! Начнём.

Промпт: «Мне нужно короткое (10-15 секунд) зацикленное видео с фотореалистичным качеством – такое, чтобы последний кадр видео был идентичен первому кадру видео. Стоящий лицом к зрителю Дед Мороз с пышной белой бородой, в красном кафтане с меховыми белыми отворотами на рукавах, держит в широко расставленных руках крупную надпись на русском языке с текстом «[название компании] поздравляет вас с новым годом», инкрустированную по внутренней площади букв рубинами с широкой окантовкой из полированной, сияющей позолоты. Съёмочная камера сфокусирована на надписи в руках Деда Мороза, который стоит на размытом фоне уютной комнаты, освещённой тёплым светом ламп накаливания, в которой стоит нарядно украшенная ёлка с множеством переливающихся разноцветных огоньков и ярко поблёскивающих ёлочных игрушек. Улыбка у Деда Мороза то становится шире, то угасает, при этом Дед Мороз плавно наклоняет корпус своего тела то влево, то вправо и покачивает головой в такт наклонам».

Отправляем промпт и ждём.

Через несколько секунд получаем…нет-нет, что вы, не видео – а подробный, развёрнутый ответ нейросети Kandinsky – он стоит того, чтобы процитировать его хотя бы частично.

Шаги для реализации
1. Подготовка графики
Для начала подготовь ключевые кадры сцены:
Фон: Сделай фотографию уютной комнаты с ёлкой, праздничным оформлением и мягким теплым освещением.
Дед Мороз: Создай реалистичное изображение Деда Мороза с пушистой бородой и ярким красным кафтаном с белыми меховыми элементами. Его лицо и тело будут статичными, изменится лишь выражение лица и положение головы и корпуса.
Надпись: Нарисуй или найди готовое оформление текста с эффектом драгоценных камней внутри букв и золотой каймой. Изображение надписи сделай крупнее, чтобы оно было заметно и читаемо даже крупным планом.
2. Создание композиции
Используя программу типа Photoshop или Affinity Photo, собери композицию из фона, Деда Мороза и надписи. Важно разместить персонажа и предмет на переднем плане, чётко выделяя объекты на размытом заднем фоне...

И так далее.

Для тех, кто не понял, что произошло: вместо генерации видео нейросеть Kandinsky от Сбера отправила мне подробную инструкцию по самостоятельному созданию видео в 3D-графике.

Для сравнения: представьте себе, что вы просите таксиста довезти вас по нужному адресу, а он вам в ответ – «Да легко! Идёшь пару километров прямо, на перекрёстке поворачиваешь направо, снова прямо сто метров, за двухэтажным зданием налево, спускаешься в подземный переход...»

Только задумайтесь: вот эта текстовая инструкция, с точки зрения Сбера – это и есть функционал под названием «Создать видео».

Перефразируя Генри Форда: «мы поможем вам создать видео любого качества при условии, что вы сами его создадите». Ну так ведь для этого и нужны нейросети, разве не так?

Публикация взята автором из своего блога.

-3

denis-19

9 дек 2025 в 07:125.4K

Работа с видео * Машинное обучение * СмартфоныИскусственный интеллектЗвук

Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.

Dmitrii_DAK

29 окт 2025 в 18:429K

Работа с видео * Python * DevOps * ДизайнИскусственный интеллект

Как я починил ошибку tokenizers в ComfyUI

Workflow Wan 2.2 GGUF Speed ComfyUI - генерация девушки-кота на Хэллоуин

Недавно столкнулся с ошибкой при запуске ComfyUI - конфликт версий библиотеки tokenizers. Ошибка выглядела так: ImportError: tokenizers>=0.22.0,<=0.23.0 is required for a normal functioning of this module, but found tokenizers==0.21.4....Рассказываю, как я её исправил без поломки окружения и рабочих workflow.

Описание контекста:
У меня Portable-версия ComfyUI, встроенный Python (папка "python_embeded", папка "update", рабочие workflow и боязнь обновлять всё подряд)

Конфликт:
ComfyUI или один из плагинов требует tokenizers >= 0.22.0, а установлена старая 0.21.4. Ранее я уже точечно менял wheels и версию torch для работы с Nunchaku.

Решение:
Прямые команды, выполненные через PowerShell в папке ComfyUI:
(Чтобы ввести команды - нужно находясь внутри папки ComfyUI нажать Shift + ПКМ на свободном месте в этой папке и выбрать "Открыть окно PowerShell здесь" и ввести нужные команды)

python_embeded\python.exe -m pip uninstall -y tokenizers python_embeded\python.exe -m pip install tokenizers==0.22.0

После перезапуска всё заработало:

PS D:\AI\ComfyUI2> python_embeded\python.exe -m pip uninstall -y tokenizers Found existing installation: tokenizers 0.21.4
Uninstalling tokenizers-0.21.4:
Successfully uninstalled tokenizers-0.21.4
и
PS D:\AI\ComfyUI2> python_embeded\python.exe -m pip install tokenizers==0.22.0
Collecting tokenizers==0.22.0
Using cached tokenizers-0.22.0-cp39-abi3-win_amd64.whl.metadata (6.9 kB) Requirement already satisfied: huggingface-hub<1.0,>=0.16.4 in d:\ai\comfyui2\python_embeded\lib\site-packages (from tokenizers==0.22.0) (0.34.4) .....
Successfully installed tokenizers-0.22.0

Как итог - видео с разрешением 364 на 640px, продолжительностью 5 секунд, сгенерировалось за 8,5 минуты на 8гб VRAM + 32гб RAM.

Почему важно не трогать "update_comfyui_and_python_dependencies.bat" ? Чтобы не нарушить совместимость всего окружения.
В таких случаях не стоит паниковать - достаточно понимать, как работают зависимости Python и виртуальные окружения.

Если вы работаете с ComfyUI или подобными пакетами, умение диагностировать и чинить зависимости - ваш надёжный инструмент в арсенале.

#ai #comfyui #python #design #code #workflow #ии

-2

denis-19

26 окт 2025 в 04:397.2K

Работа с видео * Машинное обучение * Учебный процесс в ITИскусственный интеллект

Открытый проект AI Video Transcriber помогает транскрибировать видеоролики в сжатый и отлично написанный текст. Работает просто, вытаскивает текст из любых видео за секунды, а потом корректирует и делает подробное саммари. Решение поддерживает более 30 самых популярных площадок, в том числе YouTube, TikTok, Bilibili и прочие. Проект не просто вытаскивает текст из видео, но делает настоящее эссе: дополняет фразы и реплики, корректирует факты и мысли, редактирует текст и доводит до идеала. Основа — Fast Whisper (лучшая нейронка для транскрибации видео). Может смотреть видео и сразу же выдавать текстовые материалы и уточнения. Сегментирует видео на 20-минутные отрывки и делит их на разделы, чтобы проще было изучать материал.

denis-19

17 окт 2025 в 09:515.7K

Работа с видео * Облачные сервисы * ЗдоровьеБудущее здесьУрбанизм

Проект Мяу-камера с кормушками для кошек и тремя камерами в каждой локации является частью программы по контролю численности бездомных кошек в Китае, целью которой является как кормление, так и кастрация бездомных кошек. Корм в автоматические кормушки добавляют добровольцы.

2 3 4