Обновили Yandex Cloud Video — облачную платформу для управления видеоконтентом
Cloud Video — сервис на базе видеоплатформы Яндекса, созданной командой Yandex Infrastructure. В новой версии появились возможности для защиты и быстрой обработки контента. Теперь можно добавлять логотипы в видео, загружать ролики с других площадок и управлять задержкой и стабильностью видеопотоков.
Защита контента
В Cloud Video появилась возможность добавлять логотипы в загруженное видео. Это позволит защищать контент от переиспользования и применять новые сценарии для брендирования и рекламы.
Стабильный и быстрый просмотр без задержек
Появились возможности самостоятельно управлять задержками онлайн‑трансляций и настроить мониторинг стабильности сигнала, чтобы отслеживать его в процессе эфира. На графиках можно увидеть, были ли проблемы с сигналом трансляции в конкретный момент времени.
Также видео можно выкладывать быстрее — загрузка не задержится из‑за транскодирования. Контент загрузится в оригинальном качестве, а система будет обрабатывать его параллельно.
Новые интеграции
Теперь можно переносить видеоконтент с других хостингов через службу поддержки. Для вузов и образовательных компаний появилась возможность внедрять плеер в LMS‑системы. Это поможет быстрее интегрировать видеоконтент в программы онлайн‑обучения.
В Японии представили спортивную визуальную систему Fencing Visualized, которая в с помощью ИИ в режиме реального времени отслеживает движение шпаг и спортсменов на дуэлях, рисуя их цветные шлейфы. Технология работает через компьютерное зрение без датчиков и маркеров. Дополнительно система распознаёт приёмы фехтовальщиков и показывает их на экране.
CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance
CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance
CapCut запустил Video Studio — canvas-интерфейс, где AI-агент пишет сценарий, генерирует раскадровку и собирает финальное видео. Под капотом — Seedance 2.0 от ByteDance. Разбираю, что здесь реально работает, а что пока маркетинг.
Что запустили и для кого
Video Studio появилась в веб-версии CapCut как отдельный режим с бесконечным холстом. Целевой формат — шортсы, рекламные креативы, обучающие ролики. Встроенный агент берёт промпт, генерирует идею, разбивает на сцены, создаёт изображения и видеофрагменты. Функция Omni Reference отвечает за консистентность персонажей и стилистики между кадрами.
Гео-ограничение на старте: Юго-Восточная Азия, Ближний Восток, Африка, Латинская Америка. Когда откроют для остальных — не говорят.
Seedance 2.0 — что известно про модель
Seedance — видео-модель ByteDance, которая конкурирует с Runway Gen-3, Kling и Pika. По внутренним бенчмаркам ByteDance, версия 1.0 показывала сопоставимое качество с Kling 1.5, но отставала от Gen-3 по реалистичности движений.
Seedance 2.0 анонсировали вместе с Video Studio. Ключевое обновление — улучшенная консистентность персонажей через reference-изображения. Независимых бенчмарков пока нет. Длина генерации — до 10 секунд за запрос, что стандартно для текущего поколения моделей.
Где реальная польза
Для коротких форматов это может работать. 15–30 секундный ролик из 3–5 склеенных генераций — реалистичный сценарий. Особенно для абстрактных визуалов, анимации, продуктовых демо без живых людей.
Omni Reference — интересная фича. Консистентность персонажей — главная боль генеративного видео. Если работает хотя бы на 70–80% случаев без ручной коррекции — это существенно сокращает время продакшена.
Интеграция с редактором CapCut. Генерацию можно сразу дорабатывать в привычных инструментах: склейка, субтитры, эффекты. Не нужно экспортировать и импортировать между приложениями.
Где пока слабо
Агентная часть переоценена. «AI пишет сценарий» — на практике это генерация структуры по промпту, не креативная работа. Качество сильно зависит от детализации входного запроса. Назвать это полноценным сценаристом — маркетинговое преувеличение.
10 секунд — жёсткий потолок. Для рекламы и шортсов достаточно, для обучающих роликов на 2–3 минуты придётся склеивать 12–18 фрагментов. На стыках будут проблемы с консистентностью, даже с Omni Reference.
Гео-ограничения — не случайность. ByteDance запускает в регионах с меньшим регуляторным давлением. Для EU и US нужны другие compliance-процессы. Сроки непредсказуемы.
Кредитная модель — чёрный ящик. «Насыпают бесплатных кредитов на пробный период» — классика. Сколько стоит минута готового видео после триала — информации нет. По аналогии с Runway: $15–20 за минуту качественной генерации при активном использовании.
Контекст рынка
Генеративное видео в 2024–2025 — гонка за консистентность и длину. Runway выпустил Act-One для персонажей, Pika добавил lip-sync, Kling работает над 60-секундными генерациями. Video Studio от CapCut — ответ ByteDance: не лучшая модель, но удобная интеграция в существующую экосистему с 500M+ пользователей.
Для продакшен-команд, которые уже используют CapCut для монтажа шортсов, порог входа минимальный. Для серьёзного видеопродакшена — пока эксперимент, не замена пайплайну.
Если честно
Video Studio — логичный шаг для CapCut: монетизация базы через генеративные фичи. Для быстрых креативов и тестирования идей — полезно. Для стабильного продакшена с предсказуемым качеством — рано. Главный вопрос не «когда откроют для всех регионов», а сколько будет стоить после триала и насколько стабильно работает Omni Reference на реальных задачах.
Кто уже тестировал Seedance (в TikTok или через API) как оцениваете консистентность персонажей по сравнению с Runway или Kling? Интересует именно многокадровый продакшн, не единичные генерации.
Google тихо выкатил апдейт, который меняет представление о том, что может делать «блокнот с ИИ». NotebookLM получил фичу Cinematic Video Overviews — и это не очередной генератор слайдов с голосом поверх. Это полноценный пайплайн мультимодельного видеопродакшна, упакованный в один клик.
Загружаете PDF, конспект лекции, транскрипт подкаста — получаете на выходе анимированный мини-документальный ролик с нарративом, визуальными сценами и озвучкой. Звучит как маркетинговый буллшит, но давайте разберём, что там реально под капотом.
Контекст: от подкастов к видео
Если вы следили за NotebookLM, то помните, как в 2025 году все сходили с ума по Audio Overviews — фиче, которая генерировала подкаст-стайл диалоги двух AI-ведущих по вашим документам. Штука оказалась неожиданно виральной: люди загружали научные статьи и получали natural-sounding обсуждения, которые реально помогали усвоить материал.
Логичным продолжением стали Video Overviews (июль 2025) — но по факту это были озвученные слайд-деки. Полезно, но не wow. Cinematic Video Overviews — это принципиально другой уровень.
Архитектура: три модели, одна задача
Самое интересное — как Google это реализовал. Вместо одной end-to-end модели они собрали пайплайн из трёх специализированных моделей, каждая со своей ролью:
Gemini 3 — «режиссёр»
Gemini выступает как оркестратор всего процесса. По заявлению Google, модель принимает «сотни структурных и стилистических решений» для каждого ролика: определяет нарратив, визуальный стиль, формат подачи, темп и даже итерирует собственную работу для обеспечения консистентности.
По сути, Gemini выполняет роль creative director'а: анализирует загруженные источники, выделяет ключевые идеи, строит storyline и раскадровку, а затем координирует работу остальных моделей.
2.Nano Banana Pro — генерация визуальных референсов
Эта модель отвечает за создание статичных визуалов — референсных изображений, на основе которых потом строится анимация. По сути, это image generation слой пайплайна.
3.Veo 3 — видеоанимация
Последний элемент — видеомодель Google, которая превращает статичные сцены в плавные анимации. Veo 3 — это тот же движок, что Google демонстрировал для генерации видео, но здесь он интегрирован в контекст конкретного нарратива.
Почему это архитектурно интересно
Подход «оркестратор + специализированные модели» — не новый, но в продакшн-контексте видеогенерации из пользовательских данных он применяется впервые на таком уровне.
Обратите внимание на несколько вещей:
Retrieval-grounded generation. Видео привязано к загруженным источникам. Это не галлюцинация, замаскированная под красивый ролик — система сохраняет citations, и каждое утверждение в видео можно проследить до конкретного документа. Для академических и корпоративных сценариев это критично.
Итеративная self-refinement. Google явно указывает, что Gemini «refines its own work to ensure consistency». Это намекает на multi-pass генерацию, где модель оценивает собственный output и корректирует его — подход, который мы видим в reasoning-моделях, но здесь применённый к мультимодальному контенту.
Контекстное управление. Пользователь может задать промпт вроде «Создай трёхминутный explainer для нетехнической аудитории» или «Сравни два подхода и покажи trade-offs» — и система адаптирует весь видеоролик под этот запрос.
Практические сценарии
Где это реально полезно уже сейчас:
Образование. Преподаватель загружает конспекты лекций, выдержки из учебника и пару диаграмм — на выходе получает визуальный primer с размеченными иллюстрациями. Можно использовать как подготовку к тесту или как дополнительный материал для студентов.
Аналитика и research. Аналитик скармливает десяток отчётов и стенограмм — получает нейтральный брифинг, который поднимает ключевые допущения, контраргументы и неопределённости. Для людей, которым нужен контекст быстро, это серьёзная экономия времени.
Фича доступна только для Google AI Ultra ($249.99/мес)
Вышел Frame это полноценный инструмент для работы с видео, который сжимает, конвертирует и апскейлит без нервов и подписок
Привет, Хабр.
Если вы хоть раз пытались сжать видео перед отправкой в мессенджер, конвертнуть запись вебинара в нормальный формат или вытянуть качество из старого скринкаста — вы знаете эту боль. Либо ставишь монструозный редактор ради одной кнопки, либо заливаешь файл в очередной онлайн-конвертер с рекламой казино и лимитом в 100 МБ.
Frame — это попытка сделать инструмент, который решает три базовые задачи с видео и не усложняет жизнь всем остальным.
Что делает?
Три вещи, и делает их нормально:
Сжатие без визуальной потери качества. Закидываете файл, получаете на выходе видео, которое весит ощутимо меньше, а разницу на глаз не видно. Полезно, когда нужно отправить ролик по почте или освободить место на диске.
Конвертация между форматами. MOV в MP4, AVI в WebM — стандартная рутина, которая почему-то до сих пор вызывает проблемы. Здесь она решается в пару кликов.
Апскейл видео. Берёте запись с вебки 720p или старый скринкаст и получаете картинку повыше качеством. Не магия, но для переиспользования архивных материалов — вполне рабочий вариант.
Почему это может быть интересно
Работает локально. Никакого облака — файлы не покидают вашу машину. Для тех, кто работает с NDA-контентом или просто не любит отдавать свои видео непонятным сервисам, это важно.
Открытый код. Репозиторий на GitHub, можно посмотреть, что под капотом, форкнуть, допилить под себя. Никаких водяных знаков, подписок и «разблокируйте PRO за $9.99/мес».
Русский интерфейс. Для инструмента, у которого целевая аудитория — не только разработчики, это реально снижает порог входа. Не нужно гуглить, что значит «Bitrate Mode» в третьем подменю.
Windows и macOS. Один и тот же интерфейс на обеих платформах, без плясок с зависимостями.
Кому пригодится
Тут всё довольно прагматично:
Монтажёрам — для быстрого препроцессинга, когда не хочется запускать Premiere ради конвертации одного файла.
Контент-мейкерам — подготовить ролик под требования площадки перед публикацией.
Фрилансерам — отдать клиенту видео в нужном формате без лишних вопросов.
Всем остальным — сжать запись лекции, конвертнуть видео с телефона, привести в порядок архив.
Пара слов про UX
Основная идея — минимум действий до результата. Выбрал файл, выбрал что сделать, нажал кнопку. Без таймлайнов, без десяти вкладок с настройками кодеков. Если вам нужен тонкий тюнинг — это не сюда. Если нужно быстро решить задачу — самое то.
Итого
Frame не претендует на замену FFmpeg для хардкорщиков или Adobe Media Encoder для продакшена. Это утилита для повседневных задач с видео, которая делает своё дело, не собирает данные, не просит денег и не заставляет вас разбираться в документации.
Код открыт, инструкция на русском — можно просто попробовать.
А чем вы пользуетесь для рутинных операций с видео? Интересно, у кого какой стек сложился.
Обновлён открытый проект PersonaLive. Этот ИИ который анимирует лицо в реальном времени для стримов и видео. Суть простая: загружаете портрет и «движущее» видео (или вебку), а нейросеть переносит мимику, повороты головы и речь на фото. На выходе получается будто человек с картинки реально говорит и двигается. Главная киллер‑фича: система может генерировать длинные ролики без обрывов и работать почти в лайве. Технологию уже приняли на конференцию CVPR-2026, исходный код решения опубликован на GitHub под лицензией Apache License 2.0. Потенциально это новый уровень для VTuber‑стримов, цифровых ведущих и виртуальных персонажей.
Экс‑разработчик Ubisoft представил открытый видеоредактор FreeCut, который работает в браузере и позволяет собирать сложные видео, улучшает их качество, накладывает эффекты и субтитры.
Проект умеет:
сокращать, урезать, соединять видосы, добавлять картинки, другие ролики, формы, текст;
добавлять анимацию, создать любую композицию и реализовать всевозможные идеи;
CSS‑эффекты, ключевые кадры, переходы, фильтры, коррекция цвета, перемещение камеры, 3D;
экспортировать во всех самых популярных форматах: MP4, MOV, WebM, MKV;
аудио принимает в форматах: MP3, AAC, WAV;
поддержку кодеков: H.264, H.265, VP8, VP9, ProRes;
ИИ для генерации видео Seedance 2.0 вышел 12 февраля и немедленно приковал к себе внимание высоким качеством работы. Продукт выпустила ByteDance Seed Team, то есть исследовательский отдел компании-владельца нейродегенеративного приложения TikTok.
На самом деле Seedance 2.0 — это такой типичный видеогенератор. Описывается он как единый мультимодальный аудио- и видео- архитектурный контур: модель на входе принимает текст, изображения, аудио и видео (причём пользователь может накидывать до 9 картинок, 3 видеофрагментов и 3 аудиоклипов как референсы), а на выходе выдаёт до 15 секунд ролика с синхронизированным звуком.
Что необычно, так это высокое качество контента на выходе и готовность модели игнорировать любые нормы копирайта и схожести с существующими людьми. По Сети разошлись видеоролики, где Том Круз дубасит Брэда Питта и вопрошает, зачем было убивать Джефри Эпштейна. От людей, хоть немного сведущих в ИИ, звучат умные слова «оверфитинг» и «меморизация», хотя скорее речь нужно вести про безбашенность китайцев и отсутствие политик безопасности.
Пока в Голливуде осуждают продукт или даже в судебном порядке требуют немедленно прекратить безобразие, пользователи раскуривают тему. Независимый режиссёр Чарльз Кёрран преобразовал в видеоформат известный мем про стратегическую бесполезность генеративного искусственного интеллекта.
Заметна не только высокая степень схожести внешности актёров и узнаваемость их голосов, но и свобода в отношении откровенного контента. Далеко не каждая модель искусственного интеллекта согласится работать с женской грудью такого нескромного калибра.
При этом даже в такой простой диалоговой сцене есть косяки генерации. К примеру, родинка на шее Натали Портман исчезает при монтажной склейке.
Представлен открытый глобальный дашборд World Monitor, который собирает новости, видео и события со всей планеты в одном интерфейсе. На интерактивной карте собрано больше 25 слоёв данных: конфликты, протесты, ЧП, перемещения техники, технособытия и прочие горячие новости. ИИ в реальном времени делает сводки, подсвечивает нестабильные регионы и показывает аномалии раньше новостных лент. Всё работает в реальном времени: видео с Bloomberg, Sky News, Al Jazeera и CNBC и данные со спутников объединяются, анализируются и визуализируются на карте.
Китайские стримеры молча стоят перед камерой — речь, интонации и даже мимику за них генерируют нейросети. Полностью заменить человека нельзя, так как платформы требуют присутствия реального человека в кадре. Если в эфире только виртуальный аватар, алгоритмы режут охваты или банят трансляцию.
xAI выпустила нейросетевую модель Grok Imagine 1.0 для генерации видео длиной до 10 секунд с поддержкой разрешения 720p. Релиз объединяет наработки предыдущего генератора изображений Aurora с новыми возможностями анимации. Разработчики отмечают, что нейросеть точнее следует текстовым промптам, создаёт более проработанные кадры и лучше справляется с плавностью движений по сравнению с предшественницей. В Grok Imagine 1.0 также доработали аудиосоставляющую: фоновая музыка теперь «идеально синхронизируется» со сценой, а эмоциональный спектр персонажей стал шире. Для доступа к максимальным настройкам качества и длительности пользователям потребуется оформить платную подписку.
Открытый проект 8mb.local — Self‑Hosted GPU Video Compressor умеет сжимать видео любых размеров в десятки раз. Нужный размер пользователь выбирает сам, а компрессор подстроится. По возможности сохраняет качество. Можно выбрать кодек, битрейт и даже обрезать видос во встроенном редакторе. Всё работает локально.
Представлена открытая ИИ-студия для работы с видео и лицами — VisoMaster Fusion, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок.
Тестируем нейросеть «Kandinsky» от Сбера. Повод для тестирования крайне подходящий – приближаются новогодние праздники, время поздравлять клиентов компании. Желательно с использованием какой-нибудь красивой анимации.
Приступим?
Ищем точку входа в нейросеть. Увы, с первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу.
С первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу
По счастью, один из советов Яндекса – GigaChat: он открывается с ПК и вполне функционален. Второй по счёту на стартовом экране GigaChat красуется кнопка «Создайте видео» – вот оно! Начнём.
Промпт: «Мне нужно короткое (10-15 секунд) зацикленное видео с фотореалистичным качеством – такое, чтобы последний кадр видео был идентичен первому кадру видео. Стоящий лицом к зрителю Дед Мороз с пышной белой бородой, в красном кафтане с меховыми белыми отворотами на рукавах, держит в широко расставленных руках крупную надпись на русском языке с текстом «[название компании] поздравляет вас с новым годом», инкрустированную по внутренней площади букв рубинами с широкой окантовкой из полированной, сияющей позолоты. Съёмочная камера сфокусирована на надписи в руках Деда Мороза, который стоит на размытом фоне уютной комнаты, освещённой тёплым светом ламп накаливания, в которой стоит нарядно украшенная ёлка с множеством переливающихся разноцветных огоньков и ярко поблёскивающих ёлочных игрушек. Улыбка у Деда Мороза то становится шире, то угасает, при этом Дед Мороз плавно наклоняет корпус своего тела то влево, то вправо и покачивает головой в такт наклонам».
Отправляем промпт и ждём.
Через несколько секунд получаем…нет-нет, что вы, не видео – а подробный, развёрнутый ответ нейросети Kandinsky – он стоит того, чтобы процитировать его хотя бы частично.
Шаги для реализации
1. Подготовка графики
Для начала подготовь ключевые кадры сцены:
Фон: Сделай фотографию уютной комнаты с ёлкой, праздничным оформлением и мягким теплым освещением.
Дед Мороз: Создай реалистичное изображение Деда Мороза с пушистой бородой и ярким красным кафтаном с белыми меховыми элементами. Его лицо и тело будут статичными, изменится лишь выражение лица и положение головы и корпуса.
Надпись: Нарисуй или найди готовое оформление текста с эффектом драгоценных камней внутри букв и золотой каймой. Изображение надписи сделай крупнее, чтобы оно было заметно и читаемо даже крупным планом.
2. Создание композиции
Используя программу типа Photoshop или Affinity Photo, собери композицию из фона, Деда Мороза и надписи. Важно разместить персонажа и предмет на переднем плане, чётко выделяя объекты на размытом заднем фоне...
И так далее.
Для тех, кто не понял, что произошло: вместо генерации видео нейросеть Kandinsky от Сбера отправила мне подробную инструкцию по самостоятельному созданию видео в 3D-графике.
Для сравнения: представьте себе, что вы просите таксиста довезти вас по нужному адресу, а он вам в ответ – «Да легко! Идёшь пару километров прямо, на перекрёстке поворачиваешь направо, снова прямо сто метров, за двухэтажным зданием налево, спускаешься в подземный переход...»
Только задумайтесь: вот эта текстовая инструкция, с точки зрения Сбера – это и есть функционал под названием «Создать видео».
Перефразируя Генри Форда: «мы поможем вам создать видео любого качества при условии, что вы сами его создадите». Ну так ведь для этого и нужны нейросети, разве не так?
Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.
Workflow Wan 2.2 GGUF Speed ComfyUI - генерация девушки-кота на Хэллоуин
Недавно столкнулся с ошибкой при запуске ComfyUI - конфликт версий библиотеки tokenizers. Ошибка выглядела так: ImportError: tokenizers>=0.22.0,<=0.23.0 is required for a normal functioning of this module, but found tokenizers==0.21.4....Рассказываю, как я её исправил без поломки окружения и рабочих workflow.
Описание контекста: У меня Portable-версия ComfyUI, встроенный Python (папка "python_embeded", папка "update", рабочие workflow и боязнь обновлять всё подряд)
Конфликт: ComfyUI или один из плагинов требует tokenizers >= 0.22.0, а установлена старая 0.21.4. Ранее я уже точечно менял wheels и версию torch для работы с Nunchaku.
Решение: Прямые команды, выполненные через PowerShell в папке ComfyUI: (Чтобы ввести команды - нужно находясь внутри папки ComfyUI нажать Shift + ПКМ на свободном месте в этой папке и выбрать "Открыть окно PowerShell здесь" и ввести нужные команды)
Как итог - видео с разрешением 364 на 640px, продолжительностью 5 секунд, сгенерировалось за 8,5 минуты на 8гб VRAM + 32гб RAM.
Почему важно не трогать "update_comfyui_and_python_dependencies.bat" ? Чтобы не нарушить совместимость всего окружения. В таких случаях не стоит паниковать - достаточно понимать, как работают зависимости Python и виртуальные окружения.
Если вы работаете с ComfyUI или подобными пакетами, умение диагностировать и чинить зависимости - ваш надёжный инструмент в арсенале.
Открытый проект AI Video Transcriber помогает транскрибировать видеоролики в сжатый и отлично написанный текст. Работает просто, вытаскивает текст из любых видео за секунды, а потом корректирует и делает подробное саммари. Решение поддерживает более 30 самых популярных площадок, в том числе YouTube, TikTok, Bilibili и прочие. Проект не просто вытаскивает текст из видео, но делает настоящее эссе: дополняет фразы и реплики, корректирует факты и мысли, редактирует текст и доводит до идеала. Основа — Fast Whisper (лучшая нейронка для транскрибации видео). Может смотреть видео и сразу же выдавать текстовые материалы и уточнения. Сегментирует видео на 20-минутные отрывки и делит их на разделы, чтобы проще было изучать материал.
Проект Мяу-камера с кормушками для кошек и тремя камерами в каждой локации является частью программы по контролю численности бездомных кошек в Китае, целью которой является как кормление, так и кастрация бездомных кошек. Корм в автоматические кормушки добавляют добровольцы.