Обновить
256K+

Работа с видео *

Все о создании и обработке видео

61
Рейтинг
Сначала показывать
Порог рейтинга

CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance

CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance

CapCut запустил Video Studio — canvas-интерфейс, где AI-агент пишет сценарий, генерирует раскадровку и собирает финальное видео. Под капотом — Seedance 2.0 от ByteDance. Разбираю, что здесь реально работает, а что пока маркетинг.

Что запустили и для кого

Video Studio появилась в веб-версии CapCut как отдельный режим с бесконечным холстом. Целевой формат — шортсы, рекламные креативы, обучающие ролики. Встроенный агент берёт промпт, генерирует идею, разбивает на сцены, создаёт изображения и видеофрагменты. Функция Omni Reference отвечает за консистентность персонажей и стилистики между кадрами.

Гео-ограничение на старте: Юго-Восточная Азия, Ближний Восток, Африка, Латинская Америка. Когда откроют для остальных — не говорят.

Seedance 2.0 — что известно про модель

Seedance — видео-модель ByteDance, которая конкурирует с Runway Gen-3, Kling и Pika. По внутренним бенчмаркам ByteDance, версия 1.0 показывала сопоставимое качество с Kling 1.5, но отставала от Gen-3 по реалистичности движений.

Seedance 2.0 анонсировали вместе с Video Studio. Ключевое обновление — улучшенная консистентность персонажей через reference-изображения. Независимых бенчмарков пока нет. Длина генерации — до 10 секунд за запрос, что стандартно для текущего поколения моделей.

Где реальная польза

Для коротких форматов это может работать. 15–30 секундный ролик из 3–5 склеенных генераций — реалистичный сценарий. Особенно для абстрактных визуалов, анимации, продуктовых демо без живых людей.

Omni Reference — интересная фича. Консистентность персонажей — главная боль генеративного видео. Если работает хотя бы на 70–80% случаев без ручной коррекции — это существенно сокращает время продакшена.

Интеграция с редактором CapCut. Генерацию можно сразу дорабатывать в привычных инструментах: склейка, субтитры, эффекты. Не нужно экспортировать и импортировать между приложениями.

Где пока слабо

Агентная часть переоценена. «AI пишет сценарий» — на практике это генерация структуры по промпту, не креативная работа. Качество сильно зависит от детализации входного запроса. Назвать это полноценным сценаристом — маркетинговое преувеличение.

10 секунд — жёсткий потолок. Для рекламы и шортсов достаточно, для обучающих роликов на 2–3 минуты придётся склеивать 12–18 фрагментов. На стыках будут проблемы с консистентностью, даже с Omni Reference.

Гео-ограничения — не случайность. ByteDance запускает в регионах с меньшим регуляторным давлением. Для EU и US нужны другие compliance-процессы. Сроки непредсказуемы.

Кредитная модель — чёрный ящик. «Насыпают бесплатных кредитов на пробный период» — классика. Сколько стоит минута готового видео после триала — информации нет. По аналогии с Runway: $15–20 за минуту качественной генерации при активном использовании.

Контекст рынка

Генеративное видео в 2024–2025 — гонка за консистентность и длину. Runway выпустил Act-One для персонажей, Pika добавил lip-sync, Kling работает над 60-секундными генерациями. Video Studio от CapCut — ответ ByteDance: не лучшая модель, но удобная интеграция в существующую экосистему с 500M+ пользователей.

Для продакшен-команд, которые уже используют CapCut для монтажа шортсов, порог входа минимальный. Для серьёзного видеопродакшена — пока эксперимент, не замена пайплайну.

Если честно

Video Studio — логичный шаг для CapCut: монетизация базы через генеративные фичи. Для быстрых креативов и тестирования идей — полезно. Для стабильного продакшена с предсказуемым качеством — рано. Главный вопрос не «когда откроют для всех регионов», а сколько будет стоить после триала и насколько стабильно работает Omni Reference на реальных задачах.

Кто уже тестировал Seedance (в TikTok или через API) как оцениваете консистентность персонажей по сравнению с Runway или Kling? Интересует именно многокадровый продакшн, не единичные генерации.

Теги:
0
Комментарии0

NotebookLM Cinematic Video Overviews

Google тихо выкатил апдейт, который меняет представление о том, что может делать «блокнот с ИИ». NotebookLM получил фичу Cinematic Video Overviews — и это не очередной генератор слайдов с голосом поверх. Это полноценный пайплайн мультимодельного видеопродакшна, упакованный в один клик.

Загружаете PDF, конспект лекции, транскрипт подкаста — получаете на выходе анимированный мини-документальный ролик с нарративом, визуальными сценами и озвучкой. Звучит как маркетинговый буллшит, но давайте разберём, что там реально под капотом.

Контекст: от подкастов к видео

Если вы следили за NotebookLM, то помните, как в 2025 году все сходили с ума по Audio Overviews — фиче, которая генерировала подкаст-стайл диалоги двух AI-ведущих по вашим документам. Штука оказалась неожиданно виральной: люди загружали научные статьи и получали natural-sounding обсуждения, которые реально помогали усвоить материал.

Логичным продолжением стали Video Overviews (июль 2025) — но по факту это были озвученные слайд-деки. Полезно, но не wow. Cinematic Video Overviews — это принципиально другой уровень.

Архитектура: три модели, одна задача

Самое интересное — как Google это реализовал. Вместо одной end-to-end модели они собрали пайплайн из трёх специализированных моделей, каждая со своей ролью:

  1. Gemini 3 — «режиссёр»

Gemini выступает как оркестратор всего процесса. По заявлению Google, модель принимает «сотни структурных и стилистических решений» для каждого ролика: определяет нарратив, визуальный стиль, формат подачи, темп и даже итерирует собственную работу для обеспечения консистентности.

По сути, Gemini выполняет роль creative director'а: анализирует загруженные источники, выделяет ключевые идеи, строит storyline и раскадровку, а затем координирует работу остальных моделей.

2.Nano Banana Pro — генерация визуальных референсов

Эта модель отвечает за создание статичных визуалов — референсных изображений, на основе которых потом строится анимация. По сути, это image generation слой пайплайна.

3.Veo 3 — видеоанимация

Последний элемент — видеомодель Google, которая превращает статичные сцены в плавные анимации. Veo 3 — это тот же движок, что Google демонстрировал для генерации видео, но здесь он интегрирован в контекст конкретного нарратива.

Почему это архитектурно интересно

Подход «оркестратор + специализированные модели» — не новый, но в продакшн-контексте видеогенерации из пользовательских данных он применяется впервые на таком уровне.

Обратите внимание на несколько вещей:

Retrieval-grounded generation. Видео привязано к загруженным источникам. Это не галлюцинация, замаскированная под красивый ролик — система сохраняет citations, и каждое утверждение в видео можно проследить до конкретного документа. Для академических и корпоративных сценариев это критично.

Итеративная self-refinement. Google явно указывает, что Gemini «refines its own work to ensure consistency». Это намекает на multi-pass генерацию, где модель оценивает собственный output и корректирует его — подход, который мы видим в reasoning-моделях, но здесь применённый к мультимодальному контенту.

Контекстное управление. Пользователь может задать промпт вроде «Создай трёхминутный explainer для нетехнической аудитории» или «Сравни два подхода и покажи trade-offs» — и система адаптирует весь видеоролик под этот запрос.

Практические сценарии

Где это реально полезно уже сейчас:

Образование. Преподаватель загружает конспекты лекций, выдержки из учебника и пару диаграмм — на выходе получает визуальный primer с размеченными иллюстрациями. Можно использовать как подготовку к тесту или как дополнительный материал для студентов.

Аналитика и research. Аналитик скармливает десяток отчётов и стенограмм — получает нейтральный брифинг, который поднимает ключевые допущения, контраргументы и неопределённости. Для людей, которым нужен контекст быстро, это серьёзная экономия времени.

Фича доступна только для Google AI Ultra ($249.99/мес)

Теги:
Всего голосов 4: ↑0 и ↓4-4
Комментарии3

МОНТАЖЁРЫ ВИДОСОВ, ВАМ ПОДГОН!

Вышел Frame это полноценный инструмент для работы с видео, который сжимает, конвертирует и апскейлит без нервов и подписок

Привет, Хабр.

Если вы хоть раз пытались сжать видео перед отправкой в мессенджер, конвертнуть запись вебинара в нормальный формат или вытянуть качество из старого скринкаста — вы знаете эту боль. Либо ставишь монструозный редактор ради одной кнопки, либо заливаешь файл в очередной онлайн-конвертер с рекламой казино и лимитом в 100 МБ.

Frame — это попытка сделать инструмент, который решает три базовые задачи с видео и не усложняет жизнь всем остальным.

Что делает?

Три вещи, и делает их нормально:

Сжатие без визуальной потери качества. Закидываете файл, получаете на выходе видео, которое весит ощутимо меньше, а разницу на глаз не видно. Полезно, когда нужно отправить ролик по почте или освободить место на диске.

Конвертация между форматами. MOV в MP4, AVI в WebM — стандартная рутина, которая почему-то до сих пор вызывает проблемы. Здесь она решается в пару кликов.

Апскейл видео. Берёте запись с вебки 720p или старый скринкаст и получаете картинку повыше качеством. Не магия, но для переиспользования архивных материалов — вполне рабочий вариант.

Почему это может быть интересно

Работает локально. Никакого облака — файлы не покидают вашу машину. Для тех, кто работает с NDA-контентом или просто не любит отдавать свои видео непонятным сервисам, это важно.

Открытый код. Репозиторий на GitHub, можно посмотреть, что под капотом, форкнуть, допилить под себя. Никаких водяных знаков, подписок и «разблокируйте PRO за $9.99/мес».

Русский интерфейс. Для инструмента, у которого целевая аудитория — не только разработчики, это реально снижает порог входа. Не нужно гуглить, что значит «Bitrate Mode» в третьем подменю.

Windows и macOS. Один и тот же интерфейс на обеих платформах, без плясок с зависимостями.

Кому пригодится

Тут всё довольно прагматично:

  • Монтажёрам — для быстрого препроцессинга, когда не хочется запускать Premiere ради конвертации одного файла.

  • Контент-мейкерам — подготовить ролик под требования площадки перед публикацией.

  • Фрилансерам — отдать клиенту видео в нужном формате без лишних вопросов.

  • Всем остальным — сжать запись лекции, конвертнуть видео с телефона, привести в порядок архив.

Пара слов про UX

Основная идея — минимум действий до результата. Выбрал файл, выбрал что сделать, нажал кнопку. Без таймлайнов, без десяти вкладок с настройками кодеков. Если вам нужен тонкий тюнинг — это не сюда. Если нужно быстро решить задачу — самое то.

Итого

Frame не претендует на замену FFmpeg для хардкорщиков или Adobe Media Encoder для продакшена. Это утилита для повседневных задач с видео, которая делает своё дело, не собирает данные, не просит денег и не заставляет вас разбираться в документации.

Код открыт, инструкция на русском — можно просто попробовать.

А чем вы пользуетесь для рутинных операций с видео? Интересно, у кого какой стек сложился.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии9

На GitHub сегодня обновил батник для скачивания видео через yt-dlp. Текущую версию попытался продублировать здесь:

@set @x=0 /*
@echo off
chcp 65001 >nul
setlocal
set VideoURL=gaRy9U0yiSA
set head=
set suffix=
set series=%%(series)s. 
call :set_template
set format=b
set enable_format_recommendations=1
set extension=mov
set AppPath=D:\kvk\Utilities\GitHub\yt-dlp\yt-dlp.cmd
if not exist %AppPath% set AppPath=yt-dlp.exe
if not -%1- == -- (set format=%1 & set enable_format_recommendations=0)
set tempFileName=%random%.tmp
call %AppPath% -o "%%template:.!=%%" --windows-filenames --socket-timeout 45 --print-to-file filename %%tempFileName%% --skip-download %%VideoURL%%
if not errorlevel 0 if exist %tempFileName% del /q %tempFileName%
if not exist %tempFileName% exit /b
cscript /nologo /e:javascript "%~dpnx0" %tempFileName%
set /p filename=<%tempFileName%
set processed_series=%filename:!.=!%
if not "%processed_series%" == "%filename%" (setlocal enabledelayedexpansion & set series=!series:~0,-2! & setlocal disabledelayedexpansion & call :set_template & set filename=%processed_series%)
set filename_without_series=%filename:NA. =%
if not "%filename_without_series%" == "%filename%" (set series=& call :set_template & set filename=%filename_without_series%)
setlocal enabledelayedexpansion
set filename=!filename:.mp4=.%extension%!
set filename=!filename:.webm=.%extension%!.txt
setlocal disabledelayedexpansion
echo %VideoURL% > "%filename%" && del /q %tempFileName%
cscript /nologo /e:javascript "%~dpnx0" "%filename%"
echo.>> "%filename%"
call :size "%filename%"
set tempsize=%filesize%
call %AppPath% --socket-timeout 45 --print formats_table %%VideoURL%% >> "%filename%"
if not errorlevel 0 exit /b
call :size "%filename%"
if %tempsize% == %filesize% exit /b
for /f %%i in ('cscript /nologo /e:javascript "%~dpnx0" "%filename%" /FORMATRECOMMENDATIONS:%enable_format_recommendations%') do if defined enable_format_recommendations if "%enable_format_recommendations%" == "1" if not "%%i" == "" set format=%%i
if -%1- == ---- exit /b
start "yt-dlp: %VideoURL%" %AppPath% -o "%template%" --split-chapters --postprocessor-args "SplitChapters+ffmpeg:-map_metadata -1" --video-multistreams --audio-multistreams --windows-filenames --remux-video %extension% --concurrent-fragments 10 --socket-timeout 45 --abort-on-unavailable-fragment --exec "pause " --embed-metadata --format %format% %VideoURL% ^&exit/b
:set_template
set template=%head%%series%%%(title)s [%%(id)s]%suffix%.%%(ext)s
exit /b
:size
set filesize=%~z1
goto:eof */

var fso = new ActiveXObject("Scripting.FileSystemObject"), fName = "", newText = "";
if(WSH.Arguments.Unnamed.Count && fso.FileExists(fName=WSH.Arguments.Unnamed(0))){
	with(new ActiveXObject("ADODB.Stream")){Type=2; Mode=3; Open(); Charset="UTF-8"; LoadFromFile(fName);
		Position=0; var newText=ReadText().replace(/\s*$/, ""); Close();
		newText = ((isTemp=/^\d+\.tmp$/.test(fName)) ? newText.replace(/\(/g, "{").replace(/\)/g, "}") : newText.replace(/\r\n|\n/g, "\r\n"));
		fso.DeleteFile(fName);
		Open(); Charset="UTF-8"; Position=0; WriteText(newText + (isTemp ? "" : "\r\n")); SaveToFile(fName); Close();
	}
}
if(1*WSH.Arguments.Named.Item("FORMATRECOMMENDATIONS") && newText){
	var line, lines = newText.split("\r\n"), recommended_audio_format = "", recommended_video_format = "";
	for(var lineIndex in lines){
		if(/audio only/.test(line=lines[lineIndex])){
			if(/(^hls\S+)\s.+audio only.*$/.test(line))recommended_audio_format = RegExp.$1;
			else if(!/^hls/.test(recommended_audio_format) && /(^\S+)\s+m4a/.test(line))recommended_audio_format = RegExp.$1;
		} else if(/video only/.test(line)){
			if(/(^hls\S+)\s.+video only.*$/.test(line))recommended_video_format = RegExp.$1;
			else if(!/^hls/.test(recommended_video_format) && /(^\S+)\s+mp4\s+1920x1080\s+.*avc1/.test(line))recommended_video_format = RegExp.$1;
		}
	}
	WSH.echo(recommended_audio_format && recommended_video_format ? recommended_audio_format + "+" + recommended_video_format : "");
}
Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии5

Обновлён открытый проект PersonaLive. Этот ИИ который анимирует лицо в реальном времени для стримов и видео. Суть простая: загружаете портрет и «движущее» видео (или вебку), а нейросеть переносит мимику, повороты головы и речь на фото. На выходе получается будто человек с картинки реально говорит и двигается. Главная киллер‑фича: система может генерировать длинные ролики без обрывов и работать почти в лайве. Технологию уже приняли на конференцию CVPR-2026, исходный код решения опубликован на GitHub под лицензией Apache License 2.0. Потенциально это новый уровень для VTuber‑стримов, цифровых ведущих и виртуальных персонажей.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии1

Экс‑разработчик Ubisoft представил открытый видеоредактор FreeCut, который работает в браузере и позволяет собирать сложные видео, улучшает их качество, накладывает эффекты и субтитры.

Проект умеет:

  • сокращать, урезать, соединять видосы, добавлять картинки, другие ролики, формы, текст;

  • добавлять анимацию, создать любую композицию и реализовать всевозможные идеи;

  • CSS‑эффекты, ключевые кадры, переходы, фильтры, коррекция цвета, перемещение камеры, 3D;

  • экспортировать во всех самых популярных форматах: MP4, MOV, WebM, MKV;

  • аудио принимает в форматах: MP3, AAC, WAV;

  • поддержку кодеков: H.264, H.265, VP8, VP9, ProRes;

  • сжимает видео без потери качества.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

ИИ для генерации видео Seedance 2.0 вышел 12 февраля и немедленно приковал к себе внимание высоким качеством работы. Продукт выпустила ByteDance Seed Team, то есть исследовательский отдел компании-владельца нейродегенеративного приложения TikTok.

На самом деле Seedance 2.0 — это такой типичный видеогенератор. Описывается он как единый мультимодальный аудио- и видео- архитектурный контур: модель на входе принимает текст, изображения, аудио и видео (причём пользователь может накидывать до 9 картинок, 3 видеофрагментов и 3 аудиоклипов как референсы), а на выходе выдаёт до 15 секунд ролика с синхронизированным звуком.

Что необычно, так это высокое качество контента на выходе и готовность модели игнорировать любые нормы копирайта и схожести с существующими людьми. По Сети разошлись видеоролики, где Том Круз дубасит Брэда Питта и вопрошает, зачем было убивать Джефри Эпштейна. От людей, хоть немного сведущих в ИИ, звучат умные слова «оверфитинг» и «меморизация», хотя скорее речь нужно вести про безбашенность китайцев и отсутствие политик безопасности.

Пока в Голливуде осуждают продукт или даже в судебном порядке требуют немедленно прекратить безобразие, пользователи раскуривают тему. Независимый режиссёр Чарльз Кёрран преобразовал в видеоформат известный мем про стратегическую бесполезность генеративного искусственного интеллекта.

Заметна не только высокая степень схожести внешности актёров и узнаваемость их голосов, но и свобода в отношении откровенного контента. Далеко не каждая модель искусственного интеллекта согласится работать с женской грудью такого нескромного калибра.

При этом даже в такой простой диалоговой сцене есть косяки генерации. К примеру, родинка на шее Натали Портман исчезает при монтажной склейке.

Теги:
Всего голосов 5: ↑5 и ↓0+8
Комментарии1

Представлен открытый глобальный дашборд World Monitor, который собирает новости, видео и события со всей планеты в одном интерфейсе. На интерактивной карте собрано больше 25 слоёв данных: конфликты, протесты, ЧП, перемещения техники, технособытия и прочие горячие новости. ИИ в реальном времени делает сводки, подсвечивает нестабильные регионы и показывает аномалии раньше новостных лент. Всё работает в реальном времени: видео с Bloomberg, Sky News, Al Jazeera и CNBC и данные со спутников объединяются, анализируются и визуализируются на карте.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии1

Китайские стримеры молча стоят перед камерой — речь, интонации и даже мимику за них генерируют нейросети. Полностью заменить человека нельзя, так как платформы требуют присутствия реального человека в кадре. Если в эфире только виртуальный аватар, алгоритмы режут охваты или банят трансляцию.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии3

xAI выпустила нейросетевую модель Grok Imagine 1.0 для генерации видео длиной до 10 секунд с поддержкой разрешения 720p. Релиз объединяет наработки предыдущего генератора изображений Aurora с новыми возможностями анимации. Разработчики отмечают, что нейросеть точнее следует текстовым промптам, создаёт более проработанные кадры и лучше справляется с плавностью движений по сравнению с предшественницей. В Grok Imagine 1.0 также доработали аудиосоставляющую: фоновая музыка теперь «идеально синхронизируется» со сценой, а эмоциональный спектр персонажей стал шире. Для доступа к максимальным настройкам качества и длительности пользователям потребуется оформить платную подписку.

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

Открытый проект 8mb.local — Self‑Hosted GPU Video Compressor умеет сжимать видео любых размеров в десятки раз. Нужный размер пользователь выбирает сам, а компрессор подстроится. По возможности сохраняет качество. Можно выбрать кодек, битрейт и даже обрезать видос во встроенном редакторе. Всё работает локально.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Представлена открытая ИИ-студия для работы с видео и лицами — VisoMaster Fusion, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Тестируем нейросеть «Kandinsky» от Сбера. Повод для тестирования крайне подходящий – приближаются новогодние праздники, время поздравлять клиентов компании. Желательно с использованием какой-нибудь красивой анимации.

Приступим?

Ищем точку входа в нейросеть. Увы, с первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу.

С первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу
С первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу

По счастью, один из советов Яндекса – GigaChat: он открывается с ПК и вполне функционален. Второй по счёту на стартовом экране GigaChat красуется кнопка «Создайте видео» – вот оно! Начнём.

Промпт: «Мне нужно короткое (10-15 секунд) зацикленное видео с фотореалистичным качеством – такое, чтобы последний кадр видео был идентичен первому кадру видео. Стоящий лицом к зрителю Дед Мороз с пышной белой бородой, в красном кафтане с меховыми белыми отворотами на рукавах, держит в широко расставленных руках крупную надпись на русском языке с текстом «[название компании] поздравляет вас с новым годом», инкрустированную по внутренней площади букв рубинами с широкой окантовкой из полированной, сияющей позолоты. Съёмочная камера сфокусирована на надписи в руках Деда Мороза, который стоит на размытом фоне уютной комнаты, освещённой тёплым светом ламп накаливания, в которой стоит нарядно украшенная ёлка с множеством переливающихся разноцветных огоньков и ярко поблёскивающих ёлочных игрушек. Улыбка у Деда Мороза то становится шире, то угасает, при этом Дед Мороз плавно наклоняет корпус своего тела то влево, то вправо и покачивает головой в такт наклонам».

Отправляем промпт и ждём.

Через несколько секунд получаем…нет-нет, что вы, не видео – а подробный, развёрнутый ответ нейросети Kandinsky – он стоит того, чтобы процитировать его хотя бы частично.

Шаги для реализации

1. Подготовка графики

Для начала подготовь ключевые кадры сцены:

  • Фон: Сделай фотографию уютной комнаты с ёлкой, праздничным оформлением и мягким теплым освещением.

  • Дед Мороз: Создай реалистичное изображение Деда Мороза с пушистой бородой и ярким красным кафтаном с белыми меховыми элементами. Его лицо и тело будут статичными, изменится лишь выражение лица и положение головы и корпуса.

  • Надпись: Нарисуй или найди готовое оформление текста с эффектом драгоценных камней внутри букв и золотой каймой. Изображение надписи сделай крупнее, чтобы оно было заметно и читаемо даже крупным планом.

2. Создание композиции

Используя программу типа Photoshop или Affinity Photo, собери композицию из фона, Деда Мороза и надписи. Важно разместить персонажа и предмет на переднем плане, чётко выделяя объекты на размытом заднем фоне...

И так далее.

Для тех, кто не понял, что произошло: вместо генерации видео нейросеть Kandinsky от Сбера отправила мне подробную инструкцию по самостоятельному созданию видео в 3D-графике.

Для сравнения: представьте себе, что вы просите таксиста довезти вас по нужному адресу, а он вам в ответ – «Да легко! Идёшь пару километров прямо, на перекрёстке поворачиваешь направо, снова прямо сто метров, за двухэтажным зданием налево, спускаешься в подземный переход...»

Только задумайтесь: вот эта текстовая инструкция, с точки зрения Сбера – это и есть функционал под названием «Создать видео».

Перефразируя Генри Форда: «мы поможем вам создать видео любого качества при условии, что вы сами его создадите». Ну так ведь для этого и нужны нейросети, разве не так?

Публикация взята автором из своего блога.

Теги:
Всего голосов 3: ↑0 и ↓3-3
Комментарии0

Ближайшие события

Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.

Теги:
Рейтинг0
Комментарии1

Как я починил ошибку tokenizers в ComfyUI

Workflow Wan 2.2 GGUF Speed ComfyUI - генерация девушки-кота на Хэллоуин 
Workflow Wan 2.2 GGUF Speed ComfyUI - генерация девушки-кота на Хэллоуин 

Недавно столкнулся с ошибкой при запуске ComfyUI - конфликт версий библиотеки tokenizers. Ошибка выглядела так: ImportError: tokenizers>=0.22.0,<=0.23.0 is required for a normal functioning of this module, but found tokenizers==0.21.4....Рассказываю, как я её исправил без поломки окружения и рабочих workflow.

Описание контекста:
У меня Portable-версия ComfyUI, встроенный Python (папка "python_embeded", папка "update", рабочие workflow и боязнь обновлять всё подряд)

Конфликт:
ComfyUI или один из плагинов требует tokenizers >= 0.22.0, а установлена старая 0.21.4. Ранее я уже точечно менял wheels и версию torch для работы с Nunchaku.

Решение:
Прямые команды, выполненные через PowerShell в папке ComfyUI:
(Чтобы ввести команды - нужно находясь внутри папки ComfyUI нажать Shift + ПКМ на свободном месте в этой папке и выбрать "Открыть окно PowerShell здесь" и ввести нужные команды)

python_embeded\python.exe -m pip uninstall -y tokenizers
python_embeded\python.exe -m pip install tokenizers==0.22.0

После перезапуска всё заработало:

PS D:\AI\ComfyUI2> python_embeded\python.exe -m pip uninstall -y tokenizers Found existing installation: tokenizers 0.21.4
Uninstalling tokenizers-0.21.4:
Successfully uninstalled tokenizers-0.21.4
и
PS D:\AI\ComfyUI2> python_embeded\python.exe -m pip install tokenizers==0.22.0
Collecting tokenizers==0.22.0
Using cached tokenizers-0.22.0-cp39-abi3-win_amd64.whl.metadata (6.9 kB) Requirement already satisfied: huggingface-hub<1.0,>=0.16.4 in d:\ai\comfyui2\python_embeded\lib\site-packages (from tokenizers==0.22.0) (0.34.4) .....
Successfully installed tokenizers-0.22.0

Как итог - видео с разрешением 364 на 640px, продолжительностью 5 секунд, сгенерировалось за 8,5 минуты на 8гб VRAM + 32гб RAM.

Почему важно не трогать "update_comfyui_and_python_dependencies.bat" ? Чтобы не нарушить совместимость всего окружения.
В таких случаях не стоит паниковать - достаточно понимать, как работают зависимости Python и виртуальные окружения.

Если вы работаете с ComfyUI или подобными пакетами, умение диагностировать и чинить зависимости - ваш надёжный инструмент в арсенале.

#ai #comfyui #python #design #code #workflow #ии

Теги:
Всего голосов 2: ↑0 и ↓2-2
Комментарии2

Открытый проект AI Video Transcriber помогает транскрибировать видеоролики в сжатый и отлично написанный текст. Работает просто, вытаскивает текст из любых видео за секунды, а потом корректирует и делает подробное саммари. Решение поддерживает более 30 самых популярных площадок, в том числе YouTube, TikTok, Bilibili и прочие. Проект не просто вытаскивает текст из видео, но делает настоящее эссе: дополняет фразы и реплики, корректирует факты и мысли, редактирует текст и доводит до идеала. Основа — Fast Whisper (лучшая нейронка для транскрибации видео). Может смотреть видео и сразу же выдавать текстовые материалы и уточнения. Сегментирует видео на 20-минутные отрывки и делит их на разделы, чтобы проще было изучать материал.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Проект Мяу-камера с кормушками для кошек и тремя камерами в каждой локации является частью программы по контролю численности бездомных кошек в Китае, целью которой является как кормление, так и кастрация бездомных кошек. Корм в автоматические кормушки добавляют добровольцы.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Представлен полный курс по Sora 2 от OpenAI, включая официальный гайд по промптам и созданию сцен с помощью нейросети: аниме, документалки, интервью с любыми персонажами, настройка камеры, света и генерация осмысленных диалогов.

Чем короче промпты — тем больше свободы у нейронки. Так вы дадите ИИ творческую свободу. Пример: In a 90s documentary-style interview, an old Swedish man sits in a study and says, "I still remember when I was young."

Настраиваем формат видео.

  • Format & Look: Duration 4s

  • 180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.

Выставляем свет и создаём атмосферу:

  • Lighting & Atmosphere

  • Natural sunlight from camera left, low angle (07:30 AM).

  • Bounce: 4×4 ultrabounce silver from trackside.

  • Negative fill from opposite wall.

  • Practical: sodium platform lights on dim fade.

  • Atmos: gentle mist; train exhaust drift through light beam.

«Подбираем» камеру для съёмки. Увеличиваем или уменьшаем фокус, корректируем передний и задний планы:

  • Camera shot: wide shot, low angle

  • Depth of field: shallow (sharp on subject, blurred background)

  • Lighting + palette: warm backlight with soft rim

Ведём себя как настоящий режиссёр и контролируем, задаём игру актёров: Actor takes four steps to the window, pauses, and pulls the curtain in the final second.

[Описание сцены прозой простым языком. Опиши персонажей, костюмы, декорации, погоду и другие детали. Будь как можно более описательным, чтобы видео соответствовало твоему замыслу.]
Кинематография:
Кадр камеры: [композиция и угол съёмки, например: широкий план, уровень глаз]
Настроение: [общий тон, например: кинематографично и напряжённо, игриво и тревожно, роскошное ожидание]
Действия:
- [Действие 1: чёткое, конкретное движение или жест]
- [Действие 2: ещё один отдельный момент в клипе]
- [Действие 3: другое действие или реплика]
Диалоги:
[Если в кадре есть диалог, добавь короткие естественные реплики здесь или в списке действий. Делай их короткими, чтобы они уместились в длину клипа.]

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

С момента релиза Sora 2 прошло 4 дня. Это и модель генерации видео от OpenAI, и приложение – конкурент для TikTok. Разница лишь в том, что в Sora все клипы сгенерированы искусственным интеллектом.

На самом деле смотреть в Sora не на что. Такое впечатление возникло лично у меня, когда я вчера наконец-то сподобился попросить код инвайта у сетевых знакомых. Рекомендации Sora забиты максимально однотипными трендами: сначала кто-то придумывает удачный промпт с интересно выглядящим результатом, а потом остальные подхватывают идею и заменяют персонажей на других.

К примеру, кто-то нащупал промпт для генерации клипов с нательного полицейского видеорегистратора в ситуации, где коп тормознул необычного водителя. Теперь на место автонарушителя подставляют абсолютно любых персонажей: лабрадора, голубого пришельца или даже персонажа анимэ. Казалось бы, можно каждый раз описывать абсолютно разную ситуацию, но создатели либо нажимают на кнопку Remix, либо заменяют в промпте всего одно слово. И каждый раз там будут всё те же Пикачу и Сэм Альтман.

Но это не просто лень, часто этой повторяемости есть объективные причины. Механизмы безопасности в генерации отказывают часто, поэтому легче полагаться на уже исследованный сообществом репертуар. Границы дозволенного понятны: мёртвых можно, живых трогать нельзя. Сервис Sora 2 не будет генерировать Дональда Трампа или живых знаменитостей, но согласится вставить в видео Баха, Хокинга или Майкла Джексона.

А вот персонажей Sora 2 рисует почти любых. С одной стороны, некоторых из них чисто физически нельзя закопирайтить. Если попросить выступление Иисуса на TED, будет именно тот общий образ европеоидного богочеловека, который распространён в американской массовой культуре, а не попытки задуматься о реконструкции облика исторической личности из Передней Азии эпохи античности.

Но вообще-то границ авторских прав будто и не существует. Sora кишит 10-секундными клипами с покемонами, Спанч Бобом, Риком и Морти. Иногда бывают герои игрового кино, например Тони Монтана. Или случается, что тот же коп тормознул DMC Дока Брауна и Марти Макфлая.

Важно также, что модель отлично знает голоса. При генерации аудиодорожки Sora 2 может корректно воссоздать голос Боба Росса и даже знает, как звучит Хацунэ Мику. Обычный голос (не пение) Майкла Джексона звучит похоже на его мягкий и тонкий голосок, разительно отличающийся от сценического высокого тенора.

Кстати, в датасетах обучения модели явно не было артефактов советской культуры. Союзмультфильмовский Винни-Пух не будет говорить ускоренным на магнитофоне голосом Евгения Леонова. Sora 2 даже приблизительно не знает, как выглядит планета Плюк. Если он не умеет себя развлекать самостоятельно, россиянину в приложении Sora будет откровенно скучно.

Итак, этот праздник непослушания и тотального нарушения копирайта длится уже пятые сутки, но только сегодня Интернет внезапно спохватился. Как указал бывший инженер Twitch и ныне глава Ping.gg Тео Браун, правообладатели иногда умудряются удалять результаты сгенерированного на Sora 2. Хотя казалось бы — закопирайтить результаты труда ИИ невозможно.

Другие наблюдения откровенно пугают. DHuskyTron заметил, что один из результатов генерации в Sora 2 полностью совпадает с реальным кадром из «Рика и Морти».

Возможно, с Adult Swim были заключены особые соглашения, но это именно не перерисовка, это полная копия кадра.

Могу также отметить, что Sora 2 годится разве что для производства слопа, этого типичного смешного ИИ-шлака, который быстро наскучивает из-за своей однообразности. Сколько ни бейся над промптом, модель не может составить тысячелетний таймлапс Москвы; зато в Комсомол пилотов Евангелионов у меня без проблем взяли.

Теги:
Всего голосов 8: ↑4 и ↓40
Комментарии2

Приложение Sora 2 доступно пока по приглашениям и работает только на устройствах Apple, но видеороликами из него забиты уже все ленты социальных сетей. Хотя это просто очередной генератор видео, OpenAI позиционирует приложение как соперника TikTok в деле разжижения мозгов и уничтожения способности удерживать внимание. Разница лишь в том, что контент создаёт генеративная нейросеть на основе промптов пользователей. Бесполезно проводить время предлагается за просмотром шлака от ИИ.

Заявляется, что относительно первой версии модель Sora 2 значительно более продвинутая. Это очевидно даже по описанию технических характеристик: Sora 2 генерирует 10-секундные клипы с синхронизированной аудиодорожкой, в то время как первая итерация модели умела создавать только видеоряд. Клипы могут быть ремиксом или начинаться со статичного изображения, а особую популярность снискала функция камео.

На практике это означает, что все ленты сейчас заполнены Сэмом Альтманом, ворующим игровые видеокарты из магазинов электроники. Ну а чего вы хотели? Фантазии у первопроходцев мало, да и его лицо в редакторе — это одно из предлагаемых. В лучшем случае он будет ползать по полу офиса OpenAI в кигуруми кота и истошно мяукать.

На самом деле интересные бенчмарки всё же придумывают. К примеру, как показывает Кристофер Фрайант, Sora 2 выдаёт отлично выглядящие 10-секундные клипы геймплея любой популярной видеоигры. Многие хвалят Sora 2 за отличное понимание физики.

Как утверждает дата-саентист из Meta¹ Колин Фрейзер, не всё так однозначно. У себя в микроблоге он показал несколько примеров откровенных косяков Sora 2. Ниже представлена склейка шести из них.

Здесь опробованы разные промпты. Чаще всего они связаны с отделением одного объекта от другого или их совмещением в единое целое. Как показал скептик, с взаимодействием объектов в кадре у Sora 2 откровенно туго:

  1. Вылезающий из автомобиля человек. В ответ на промпт Фрейзера модель зажимает ногу человека дверью.

  2. Прыгающий через обруч пёс никуда не прыгает.

  3. Пиво ведёт себя как желе, у бармена с пальцами случилась каляка-маляка.

  4. Кстати, попытки упростить промпт про вылезание из машины ничего хорошего не приносят.

  5. Даже когда Колин явно задал в промпте состояние стакана, сосуд с апельсиновым соком опустошён до дна не был — уровень жидкости даже не изменился.

  6. Ну и задувание свечей всё так же на реальность не походит.

Твиты Фрейзера вызвали резко негативную реакцию. У себя в микроблоге он пожаловался, что люди в ответ на поиск изъянов начинают злиться. Колин не понимает, почему многие настолько эмоционально инвестированы в какое-то приложение для генерации и листания видеороликов.

(1) Холдинговая компания Meta — экстремистская организация, её деятельность запрещена.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0