Обновить
65.62

Работа с видео *

Все о создании и обработке видео

Сначала показывать
Порог рейтинга

NotebookLM Cinematic Video Overviews

Google тихо выкатил апдейт, который меняет представление о том, что может делать «блокнот с ИИ». NotebookLM получил фичу Cinematic Video Overviews — и это не очередной генератор слайдов с голосом поверх. Это полноценный пайплайн мультимодельного видеопродакшна, упакованный в один клик.

Загружаете PDF, конспект лекции, транскрипт подкаста — получаете на выходе анимированный мини-документальный ролик с нарративом, визуальными сценами и озвучкой. Звучит как маркетинговый буллшит, но давайте разберём, что там реально под капотом.

Контекст: от подкастов к видео

Если вы следили за NotebookLM, то помните, как в 2025 году все сходили с ума по Audio Overviews — фиче, которая генерировала подкаст-стайл диалоги двух AI-ведущих по вашим документам. Штука оказалась неожиданно виральной: люди загружали научные статьи и получали natural-sounding обсуждения, которые реально помогали усвоить материал.

Логичным продолжением стали Video Overviews (июль 2025) — но по факту это были озвученные слайд-деки. Полезно, но не wow. Cinematic Video Overviews — это принципиально другой уровень.

Архитектура: три модели, одна задача

Самое интересное — как Google это реализовал. Вместо одной end-to-end модели они собрали пайплайн из трёх специализированных моделей, каждая со своей ролью:

  1. Gemini 3 — «режиссёр»

Gemini выступает как оркестратор всего процесса. По заявлению Google, модель принимает «сотни структурных и стилистических решений» для каждого ролика: определяет нарратив, визуальный стиль, формат подачи, темп и даже итерирует собственную работу для обеспечения консистентности.

По сути, Gemini выполняет роль creative director'а: анализирует загруженные источники, выделяет ключевые идеи, строит storyline и раскадровку, а затем координирует работу остальных моделей.

2.Nano Banana Pro — генерация визуальных референсов

Эта модель отвечает за создание статичных визуалов — референсных изображений, на основе которых потом строится анимация. По сути, это image generation слой пайплайна.

3.Veo 3 — видеоанимация

Последний элемент — видеомодель Google, которая превращает статичные сцены в плавные анимации. Veo 3 — это тот же движок, что Google демонстрировал для генерации видео, но здесь он интегрирован в контекст конкретного нарратива.

Почему это архитектурно интересно

Подход «оркестратор + специализированные модели» — не новый, но в продакшн-контексте видеогенерации из пользовательских данных он применяется впервые на таком уровне.

Обратите внимание на несколько вещей:

Retrieval-grounded generation. Видео привязано к загруженным источникам. Это не галлюцинация, замаскированная под красивый ролик — система сохраняет citations, и каждое утверждение в видео можно проследить до конкретного документа. Для академических и корпоративных сценариев это критично.

Итеративная self-refinement. Google явно указывает, что Gemini «refines its own work to ensure consistency». Это намекает на multi-pass генерацию, где модель оценивает собственный output и корректирует его — подход, который мы видим в reasoning-моделях, но здесь применённый к мультимодальному контенту.

Контекстное управление. Пользователь может задать промпт вроде «Создай трёхминутный explainer для нетехнической аудитории» или «Сравни два подхода и покажи trade-offs» — и система адаптирует весь видеоролик под этот запрос.

Практические сценарии

Где это реально полезно уже сейчас:

Образование. Преподаватель загружает конспекты лекций, выдержки из учебника и пару диаграмм — на выходе получает визуальный primer с размеченными иллюстрациями. Можно использовать как подготовку к тесту или как дополнительный материал для студентов.

Аналитика и research. Аналитик скармливает десяток отчётов и стенограмм — получает нейтральный брифинг, который поднимает ключевые допущения, контраргументы и неопределённости. Для людей, которым нужен контекст быстро, это серьёзная экономия времени.

Фича доступна только для Google AI Ultra ($249.99/мес)

Теги:
-4
Комментарии3

МОНТАЖЁРЫ ВИДОСОВ, ВАМ ПОДГОН!

Вышел Frame это полноценный инструмент для работы с видео, который сжимает, конвертирует и апскейлит без нервов и подписок

Привет, Хабр.

Если вы хоть раз пытались сжать видео перед отправкой в мессенджер, конвертнуть запись вебинара в нормальный формат или вытянуть качество из старого скринкаста — вы знаете эту боль. Либо ставишь монструозный редактор ради одной кнопки, либо заливаешь файл в очередной онлайн-конвертер с рекламой казино и лимитом в 100 МБ.

Frame — это попытка сделать инструмент, который решает три базовые задачи с видео и не усложняет жизнь всем остальным.

Что делает?

Три вещи, и делает их нормально:

Сжатие без визуальной потери качества. Закидываете файл, получаете на выходе видео, которое весит ощутимо меньше, а разницу на глаз не видно. Полезно, когда нужно отправить ролик по почте или освободить место на диске.

Конвертация между форматами. MOV в MP4, AVI в WebM — стандартная рутина, которая почему-то до сих пор вызывает проблемы. Здесь она решается в пару кликов.

Апскейл видео. Берёте запись с вебки 720p или старый скринкаст и получаете картинку повыше качеством. Не магия, но для переиспользования архивных материалов — вполне рабочий вариант.

Почему это может быть интересно

Работает локально. Никакого облака — файлы не покидают вашу машину. Для тех, кто работает с NDA-контентом или просто не любит отдавать свои видео непонятным сервисам, это важно.

Открытый код. Репозиторий на GitHub, можно посмотреть, что под капотом, форкнуть, допилить под себя. Никаких водяных знаков, подписок и «разблокируйте PRO за $9.99/мес».

Русский интерфейс. Для инструмента, у которого целевая аудитория — не только разработчики, это реально снижает порог входа. Не нужно гуглить, что значит «Bitrate Mode» в третьем подменю.

Windows и macOS. Один и тот же интерфейс на обеих платформах, без плясок с зависимостями.

Кому пригодится

Тут всё довольно прагматично:

  • Монтажёрам — для быстрого препроцессинга, когда не хочется запускать Premiere ради конвертации одного файла.

  • Контент-мейкерам — подготовить ролик под требования площадки перед публикацией.

  • Фрилансерам — отдать клиенту видео в нужном формате без лишних вопросов.

  • Всем остальным — сжать запись лекции, конвертнуть видео с телефона, привести в порядок архив.

Пара слов про UX

Основная идея — минимум действий до результата. Выбрал файл, выбрал что сделать, нажал кнопку. Без таймлайнов, без десяти вкладок с настройками кодеков. Если вам нужен тонкий тюнинг — это не сюда. Если нужно быстро решить задачу — самое то.

Итого

Frame не претендует на замену FFmpeg для хардкорщиков или Adobe Media Encoder для продакшена. Это утилита для повседневных задач с видео, которая делает своё дело, не собирает данные, не просит денег и не заставляет вас разбираться в документации.

Код открыт, инструкция на русском — можно просто попробовать.

А чем вы пользуетесь для рутинных операций с видео? Интересно, у кого какой стек сложился.

Теги:
+4
Комментарии9

На GitHub сегодня обновил батник для скачивания видео через yt-dlp. Текущую версию попытался продублировать здесь:

@set @x=0 /*
@echo off
chcp 65001 >nul
setlocal
set VideoURL=gaRy9U0yiSA
set head=
set suffix=
set series=%%(series)s. 
call :set_template
set format=b
set enable_format_recommendations=1
set extension=mov
set AppPath=D:\kvk\Utilities\GitHub\yt-dlp\yt-dlp.cmd
if not exist %AppPath% set AppPath=yt-dlp.exe
if not -%1- == -- (set format=%1 & set enable_format_recommendations=0)
set tempFileName=%random%.tmp
call %AppPath% -o "%%template:.!=%%" --windows-filenames --socket-timeout 45 --print-to-file filename %%tempFileName%% --skip-download %%VideoURL%%
if not errorlevel 0 if exist %tempFileName% del /q %tempFileName%
if not exist %tempFileName% exit /b
cscript /nologo /e:javascript "%~dpnx0" %tempFileName%
set /p filename=<%tempFileName%
set processed_series=%filename:!.=!%
if not "%processed_series%" == "%filename%" (setlocal enabledelayedexpansion & set series=!series:~0,-2! & setlocal disabledelayedexpansion & call :set_template & set filename=%processed_series%)
set filename_without_series=%filename:NA. =%
if not "%filename_without_series%" == "%filename%" (set series=& call :set_template & set filename=%filename_without_series%)
setlocal enabledelayedexpansion
set filename=!filename:.mp4=.%extension%!
set filename=!filename:.webm=.%extension%!.txt
setlocal disabledelayedexpansion
echo %VideoURL% > "%filename%" && del /q %tempFileName%
cscript /nologo /e:javascript "%~dpnx0" "%filename%"
echo.>> "%filename%"
call :size "%filename%"
set tempsize=%filesize%
call %AppPath% --socket-timeout 45 --print formats_table %%VideoURL%% >> "%filename%"
if not errorlevel 0 exit /b
call :size "%filename%"
if %tempsize% == %filesize% exit /b
for /f %%i in ('cscript /nologo /e:javascript "%~dpnx0" "%filename%" /FORMATRECOMMENDATIONS:%enable_format_recommendations%') do if defined enable_format_recommendations if "%enable_format_recommendations%" == "1" if not "%%i" == "" set format=%%i
if -%1- == ---- exit /b
start "yt-dlp: %VideoURL%" %AppPath% -o "%template%" --split-chapters --postprocessor-args "SplitChapters+ffmpeg:-map_metadata -1" --video-multistreams --audio-multistreams --windows-filenames --remux-video %extension% --concurrent-fragments 10 --socket-timeout 45 --abort-on-unavailable-fragment --exec "pause " --embed-metadata --format %format% %VideoURL% ^&exit/b
:set_template
set template=%head%%series%%%(title)s [%%(id)s]%suffix%.%%(ext)s
exit /b
:size
set filesize=%~z1
goto:eof */

var fso = new ActiveXObject("Scripting.FileSystemObject"), fName = "", newText = "";
if(WSH.Arguments.Unnamed.Count && fso.FileExists(fName=WSH.Arguments.Unnamed(0))){
	with(new ActiveXObject("ADODB.Stream")){Type=2; Mode=3; Open(); Charset="UTF-8"; LoadFromFile(fName);
		Position=0; var newText=ReadText().replace(/\s*$/, ""); Close();
		newText = ((isTemp=/^\d+\.tmp$/.test(fName)) ? newText.replace(/\(/g, "{").replace(/\)/g, "}") : newText.replace(/\r\n|\n/g, "\r\n"));
		fso.DeleteFile(fName);
		Open(); Charset="UTF-8"; Position=0; WriteText(newText + (isTemp ? "" : "\r\n")); SaveToFile(fName); Close();
	}
}
if(1*WSH.Arguments.Named.Item("FORMATRECOMMENDATIONS") && newText){
	var line, lines = newText.split("\r\n"), recommended_audio_format = "", recommended_video_format = "";
	for(var lineIndex in lines){
		if(/audio only/.test(line=lines[lineIndex])){
			if(/(^hls\S+)\s.+audio only.*$/.test(line))recommended_audio_format = RegExp.$1;
			else if(!/^hls/.test(recommended_audio_format) && /(^\S+)\s+m4a/.test(line))recommended_audio_format = RegExp.$1;
		} else if(/video only/.test(line)){
			if(/(^hls\S+)\s.+video only.*$/.test(line))recommended_video_format = RegExp.$1;
			else if(!/^hls/.test(recommended_video_format) && /(^\S+)\s+mp4\s+1920x1080\s+.*avc1/.test(line))recommended_video_format = RegExp.$1;
		}
	}
	WSH.echo(recommended_audio_format && recommended_video_format ? recommended_audio_format + "+" + recommended_video_format : "");
}
Теги:
+2
Комментарии5

Обновлён открытый проект PersonaLive. Этот ИИ который анимирует лицо в реальном времени для стримов и видео. Суть простая: загружаете портрет и «движущее» видео (или вебку), а нейросеть переносит мимику, повороты головы и речь на фото. На выходе получается будто человек с картинки реально говорит и двигается. Главная киллер‑фича: система может генерировать длинные ролики без обрывов и работать почти в лайве. Технологию уже приняли на конференцию CVPR-2026, исходный код решения опубликован на GitHub под лицензией Apache License 2.0. Потенциально это новый уровень для VTuber‑стримов, цифровых ведущих и виртуальных персонажей.

Теги:
+4
Комментарии1

Экс‑разработчик Ubisoft представил открытый видеоредактор FreeCut, который работает в браузере и позволяет собирать сложные видео, улучшает их качество, накладывает эффекты и субтитры.

Проект умеет:

  • сокращать, урезать, соединять видосы, добавлять картинки, другие ролики, формы, текст;

  • добавлять анимацию, создать любую композицию и реализовать всевозможные идеи;

  • CSS‑эффекты, ключевые кадры, переходы, фильтры, коррекция цвета, перемещение камеры, 3D;

  • экспортировать во всех самых популярных форматах: MP4, MOV, WebM, MKV;

  • аудио принимает в форматах: MP3, AAC, WAV;

  • поддержку кодеков: H.264, H.265, VP8, VP9, ProRes;

  • сжимает видео без потери качества.

Теги:
+4
Комментарии0

ИИ для генерации видео Seedance 2.0 вышел 12 февраля и немедленно приковал к себе внимание высоким качеством работы. Продукт выпустила ByteDance Seed Team, то есть исследовательский отдел компании-владельца нейродегенеративного приложения TikTok.

На самом деле Seedance 2.0 — это такой типичный видеогенератор. Описывается он как единый мультимодальный аудио- и видео- архитектурный контур: модель на входе принимает текст, изображения, аудио и видео (причём пользователь может накидывать до 9 картинок, 3 видеофрагментов и 3 аудиоклипов как референсы), а на выходе выдаёт до 15 секунд ролика с синхронизированным звуком.

Что необычно, так это высокое качество контента на выходе и готовность модели игнорировать любые нормы копирайта и схожести с существующими людьми. По Сети разошлись видеоролики, где Том Круз дубасит Брэда Питта и вопрошает, зачем было убивать Джефри Эпштейна. От людей, хоть немного сведущих в ИИ, звучат умные слова «оверфитинг» и «меморизация», хотя скорее речь нужно вести про безбашенность китайцев и отсутствие политик безопасности.

Пока в Голливуде осуждают продукт или даже в судебном порядке требуют немедленно прекратить безобразие, пользователи раскуривают тему. Независимый режиссёр Чарльз Кёрран преобразовал в видеоформат известный мем про стратегическую бесполезность генеративного искусственного интеллекта.

Заметна не только высокая степень схожести внешности актёров и узнаваемость их голосов, но и свобода в отношении откровенного контента. Далеко не каждая модель искусственного интеллекта согласится работать с женской грудью такого нескромного калибра.

При этом даже в такой простой диалоговой сцене есть косяки генерации. К примеру, родинка на шее Натали Портман исчезает при монтажной склейке.

Теги:
Всего голосов 5: ↑5 и ↓0+8
Комментарии1

Представлен открытый глобальный дашборд World Monitor, который собирает новости, видео и события со всей планеты в одном интерфейсе. На интерактивной карте собрано больше 25 слоёв данных: конфликты, протесты, ЧП, перемещения техники, технособытия и прочие горячие новости. ИИ в реальном времени делает сводки, подсвечивает нестабильные регионы и показывает аномалии раньше новостных лент. Всё работает в реальном времени: видео с Bloomberg, Sky News, Al Jazeera и CNBC и данные со спутников объединяются, анализируются и визуализируются на карте.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии1

Китайские стримеры молча стоят перед камерой — речь, интонации и даже мимику за них генерируют нейросети. Полностью заменить человека нельзя, так как платформы требуют присутствия реального человека в кадре. Если в эфире только виртуальный аватар, алгоритмы режут охваты или банят трансляцию.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии3

xAI выпустила нейросетевую модель Grok Imagine 1.0 для генерации видео длиной до 10 секунд с поддержкой разрешения 720p. Релиз объединяет наработки предыдущего генератора изображений Aurora с новыми возможностями анимации. Разработчики отмечают, что нейросеть точнее следует текстовым промптам, создаёт более проработанные кадры и лучше справляется с плавностью движений по сравнению с предшественницей. В Grok Imagine 1.0 также доработали аудиосоставляющую: фоновая музыка теперь «идеально синхронизируется» со сценой, а эмоциональный спектр персонажей стал шире. Для доступа к максимальным настройкам качества и длительности пользователям потребуется оформить платную подписку.

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

Открытый проект 8mb.local — Self‑Hosted GPU Video Compressor умеет сжимать видео любых размеров в десятки раз. Нужный размер пользователь выбирает сам, а компрессор подстроится. По возможности сохраняет качество. Можно выбрать кодек, битрейт и даже обрезать видос во встроенном редакторе. Всё работает локально.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Представлена открытая ИИ-студия для работы с видео и лицами — VisoMaster Fusion, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Тестируем нейросеть «Kandinsky» от Сбера. Повод для тестирования крайне подходящий – приближаются новогодние праздники, время поздравлять клиентов компании. Желательно с использованием какой-нибудь красивой анимации.

Приступим?

Ищем точку входа в нейросеть. Увы, с первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу.

С первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу
С первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу

По счастью, один из советов Яндекса – GigaChat: он открывается с ПК и вполне функционален. Второй по счёту на стартовом экране GigaChat красуется кнопка «Создайте видео» – вот оно! Начнём.

Промпт: «Мне нужно короткое (10-15 секунд) зацикленное видео с фотореалистичным качеством – такое, чтобы последний кадр видео был идентичен первому кадру видео. Стоящий лицом к зрителю Дед Мороз с пышной белой бородой, в красном кафтане с меховыми белыми отворотами на рукавах, держит в широко расставленных руках крупную надпись на русском языке с текстом «[название компании] поздравляет вас с новым годом», инкрустированную по внутренней площади букв рубинами с широкой окантовкой из полированной, сияющей позолоты. Съёмочная камера сфокусирована на надписи в руках Деда Мороза, который стоит на размытом фоне уютной комнаты, освещённой тёплым светом ламп накаливания, в которой стоит нарядно украшенная ёлка с множеством переливающихся разноцветных огоньков и ярко поблёскивающих ёлочных игрушек. Улыбка у Деда Мороза то становится шире, то угасает, при этом Дед Мороз плавно наклоняет корпус своего тела то влево, то вправо и покачивает головой в такт наклонам».

Отправляем промпт и ждём.

Через несколько секунд получаем…нет-нет, что вы, не видео – а подробный, развёрнутый ответ нейросети Kandinsky – он стоит того, чтобы процитировать его хотя бы частично.

Шаги для реализации

1. Подготовка графики

Для начала подготовь ключевые кадры сцены:

  • Фон: Сделай фотографию уютной комнаты с ёлкой, праздничным оформлением и мягким теплым освещением.

  • Дед Мороз: Создай реалистичное изображение Деда Мороза с пушистой бородой и ярким красным кафтаном с белыми меховыми элементами. Его лицо и тело будут статичными, изменится лишь выражение лица и положение головы и корпуса.

  • Надпись: Нарисуй или найди готовое оформление текста с эффектом драгоценных камней внутри букв и золотой каймой. Изображение надписи сделай крупнее, чтобы оно было заметно и читаемо даже крупным планом.

2. Создание композиции

Используя программу типа Photoshop или Affinity Photo, собери композицию из фона, Деда Мороза и надписи. Важно разместить персонажа и предмет на переднем плане, чётко выделяя объекты на размытом заднем фоне...

И так далее.

Для тех, кто не понял, что произошло: вместо генерации видео нейросеть Kandinsky от Сбера отправила мне подробную инструкцию по самостоятельному созданию видео в 3D-графике.

Для сравнения: представьте себе, что вы просите таксиста довезти вас по нужному адресу, а он вам в ответ – «Да легко! Идёшь пару километров прямо, на перекрёстке поворачиваешь направо, снова прямо сто метров, за двухэтажным зданием налево, спускаешься в подземный переход...»

Только задумайтесь: вот эта текстовая инструкция, с точки зрения Сбера – это и есть функционал под названием «Создать видео».

Перефразируя Генри Форда: «мы поможем вам создать видео любого качества при условии, что вы сами его создадите». Ну так ведь для этого и нужны нейросети, разве не так?

Публикация взята автором из своего блога.

Теги:
Всего голосов 3: ↑0 и ↓3-3
Комментарии0

Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.

Теги:
Рейтинг0
Комментарии1

Ближайшие события

Как я починил ошибку tokenizers в ComfyUI

Workflow Wan 2.2 GGUF Speed ComfyUI - генерация девушки-кота на Хэллоуин 
Workflow Wan 2.2 GGUF Speed ComfyUI - генерация девушки-кота на Хэллоуин 

Недавно столкнулся с ошибкой при запуске ComfyUI - конфликт версий библиотеки tokenizers. Ошибка выглядела так: ImportError: tokenizers>=0.22.0,<=0.23.0 is required for a normal functioning of this module, but found tokenizers==0.21.4....Рассказываю, как я её исправил без поломки окружения и рабочих workflow.

Описание контекста:
У меня Portable-версия ComfyUI, встроенный Python (папка "python_embeded", папка "update", рабочие workflow и боязнь обновлять всё подряд)

Конфликт:
ComfyUI или один из плагинов требует tokenizers >= 0.22.0, а установлена старая 0.21.4. Ранее я уже точечно менял wheels и версию torch для работы с Nunchaku.

Решение:
Прямые команды, выполненные через PowerShell в папке ComfyUI:
(Чтобы ввести команды - нужно находясь внутри папки ComfyUI нажать Shift + ПКМ на свободном месте в этой папке и выбрать "Открыть окно PowerShell здесь" и ввести нужные команды)

python_embeded\python.exe -m pip uninstall -y tokenizers
python_embeded\python.exe -m pip install tokenizers==0.22.0

После перезапуска всё заработало:

PS D:\AI\ComfyUI2> python_embeded\python.exe -m pip uninstall -y tokenizers Found existing installation: tokenizers 0.21.4
Uninstalling tokenizers-0.21.4:
Successfully uninstalled tokenizers-0.21.4
и
PS D:\AI\ComfyUI2> python_embeded\python.exe -m pip install tokenizers==0.22.0
Collecting tokenizers==0.22.0
Using cached tokenizers-0.22.0-cp39-abi3-win_amd64.whl.metadata (6.9 kB) Requirement already satisfied: huggingface-hub<1.0,>=0.16.4 in d:\ai\comfyui2\python_embeded\lib\site-packages (from tokenizers==0.22.0) (0.34.4) .....
Successfully installed tokenizers-0.22.0

Как итог - видео с разрешением 364 на 640px, продолжительностью 5 секунд, сгенерировалось за 8,5 минуты на 8гб VRAM + 32гб RAM.

Почему важно не трогать "update_comfyui_and_python_dependencies.bat" ? Чтобы не нарушить совместимость всего окружения.
В таких случаях не стоит паниковать - достаточно понимать, как работают зависимости Python и виртуальные окружения.

Если вы работаете с ComfyUI или подобными пакетами, умение диагностировать и чинить зависимости - ваш надёжный инструмент в арсенале.

#ai #comfyui #python #design #code #workflow #ии

Теги:
Всего голосов 2: ↑0 и ↓2-2
Комментарии2

Открытый проект AI Video Transcriber помогает транскрибировать видеоролики в сжатый и отлично написанный текст. Работает просто, вытаскивает текст из любых видео за секунды, а потом корректирует и делает подробное саммари. Решение поддерживает более 30 самых популярных площадок, в том числе YouTube, TikTok, Bilibili и прочие. Проект не просто вытаскивает текст из видео, но делает настоящее эссе: дополняет фразы и реплики, корректирует факты и мысли, редактирует текст и доводит до идеала. Основа — Fast Whisper (лучшая нейронка для транскрибации видео). Может смотреть видео и сразу же выдавать текстовые материалы и уточнения. Сегментирует видео на 20-минутные отрывки и делит их на разделы, чтобы проще было изучать материал.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Проект Мяу-камера с кормушками для кошек и тремя камерами в каждой локации является частью программы по контролю численности бездомных кошек в Китае, целью которой является как кормление, так и кастрация бездомных кошек. Корм в автоматические кормушки добавляют добровольцы.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Представлен полный курс по Sora 2 от OpenAI, включая официальный гайд по промптам и созданию сцен с помощью нейросети: аниме, документалки, интервью с любыми персонажами, настройка камеры, света и генерация осмысленных диалогов.

Чем короче промпты — тем больше свободы у нейронки. Так вы дадите ИИ творческую свободу. Пример: In a 90s documentary-style interview, an old Swedish man sits in a study and says, "I still remember when I was young."

Настраиваем формат видео.

  • Format & Look: Duration 4s

  • 180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.

Выставляем свет и создаём атмосферу:

  • Lighting & Atmosphere

  • Natural sunlight from camera left, low angle (07:30 AM).

  • Bounce: 4×4 ultrabounce silver from trackside.

  • Negative fill from opposite wall.

  • Practical: sodium platform lights on dim fade.

  • Atmos: gentle mist; train exhaust drift through light beam.

«Подбираем» камеру для съёмки. Увеличиваем или уменьшаем фокус, корректируем передний и задний планы:

  • Camera shot: wide shot, low angle

  • Depth of field: shallow (sharp on subject, blurred background)

  • Lighting + palette: warm backlight with soft rim

Ведём себя как настоящий режиссёр и контролируем, задаём игру актёров: Actor takes four steps to the window, pauses, and pulls the curtain in the final second.

[Описание сцены прозой простым языком. Опиши персонажей, костюмы, декорации, погоду и другие детали. Будь как можно более описательным, чтобы видео соответствовало твоему замыслу.]
Кинематография:
Кадр камеры: [композиция и угол съёмки, например: широкий план, уровень глаз]
Настроение: [общий тон, например: кинематографично и напряжённо, игриво и тревожно, роскошное ожидание]
Действия:
- [Действие 1: чёткое, конкретное движение или жест]
- [Действие 2: ещё один отдельный момент в клипе]
- [Действие 3: другое действие или реплика]
Диалоги:
[Если в кадре есть диалог, добавь короткие естественные реплики здесь или в списке действий. Делай их короткими, чтобы они уместились в длину клипа.]

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

С момента релиза Sora 2 прошло 4 дня. Это и модель генерации видео от OpenAI, и приложение – конкурент для TikTok. Разница лишь в том, что в Sora все клипы сгенерированы искусственным интеллектом.

На самом деле смотреть в Sora не на что. Такое впечатление возникло лично у меня, когда я вчера наконец-то сподобился попросить код инвайта у сетевых знакомых. Рекомендации Sora забиты максимально однотипными трендами: сначала кто-то придумывает удачный промпт с интересно выглядящим результатом, а потом остальные подхватывают идею и заменяют персонажей на других.

К примеру, кто-то нащупал промпт для генерации клипов с нательного полицейского видеорегистратора в ситуации, где коп тормознул необычного водителя. Теперь на место автонарушителя подставляют абсолютно любых персонажей: лабрадора, голубого пришельца или даже персонажа анимэ. Казалось бы, можно каждый раз описывать абсолютно разную ситуацию, но создатели либо нажимают на кнопку Remix, либо заменяют в промпте всего одно слово. И каждый раз там будут всё те же Пикачу и Сэм Альтман.

Но это не просто лень, часто этой повторяемости есть объективные причины. Механизмы безопасности в генерации отказывают часто, поэтому легче полагаться на уже исследованный сообществом репертуар. Границы дозволенного понятны: мёртвых можно, живых трогать нельзя. Сервис Sora 2 не будет генерировать Дональда Трампа или живых знаменитостей, но согласится вставить в видео Баха, Хокинга или Майкла Джексона.

А вот персонажей Sora 2 рисует почти любых. С одной стороны, некоторых из них чисто физически нельзя закопирайтить. Если попросить выступление Иисуса на TED, будет именно тот общий образ европеоидного богочеловека, который распространён в американской массовой культуре, а не попытки задуматься о реконструкции облика исторической личности из Передней Азии эпохи античности.

Но вообще-то границ авторских прав будто и не существует. Sora кишит 10-секундными клипами с покемонами, Спанч Бобом, Риком и Морти. Иногда бывают герои игрового кино, например Тони Монтана. Или случается, что тот же коп тормознул DMC Дока Брауна и Марти Макфлая.

Важно также, что модель отлично знает голоса. При генерации аудиодорожки Sora 2 может корректно воссоздать голос Боба Росса и даже знает, как звучит Хацунэ Мику. Обычный голос (не пение) Майкла Джексона звучит похоже на его мягкий и тонкий голосок, разительно отличающийся от сценического высокого тенора.

Кстати, в датасетах обучения модели явно не было артефактов советской культуры. Союзмультфильмовский Винни-Пух не будет говорить ускоренным на магнитофоне голосом Евгения Леонова. Sora 2 даже приблизительно не знает, как выглядит планета Плюк. Если он не умеет себя развлекать самостоятельно, россиянину в приложении Sora будет откровенно скучно.

Итак, этот праздник непослушания и тотального нарушения копирайта длится уже пятые сутки, но только сегодня Интернет внезапно спохватился. Как указал бывший инженер Twitch и ныне глава Ping.gg Тео Браун, правообладатели иногда умудряются удалять результаты сгенерированного на Sora 2. Хотя казалось бы — закопирайтить результаты труда ИИ невозможно.

Другие наблюдения откровенно пугают. DHuskyTron заметил, что один из результатов генерации в Sora 2 полностью совпадает с реальным кадром из «Рика и Морти».

Возможно, с Adult Swim были заключены особые соглашения, но это именно не перерисовка, это полная копия кадра.

Могу также отметить, что Sora 2 годится разве что для производства слопа, этого типичного смешного ИИ-шлака, который быстро наскучивает из-за своей однообразности. Сколько ни бейся над промптом, модель не может составить тысячелетний таймлапс Москвы; зато в Комсомол пилотов Евангелионов у меня без проблем взяли.

Теги:
Всего голосов 8: ↑4 и ↓40
Комментарии2

Приложение Sora 2 доступно пока по приглашениям и работает только на устройствах Apple, но видеороликами из него забиты уже все ленты социальных сетей. Хотя это просто очередной генератор видео, OpenAI позиционирует приложение как соперника TikTok в деле разжижения мозгов и уничтожения способности удерживать внимание. Разница лишь в том, что контент создаёт генеративная нейросеть на основе промптов пользователей. Бесполезно проводить время предлагается за просмотром шлака от ИИ.

Заявляется, что относительно первой версии модель Sora 2 значительно более продвинутая. Это очевидно даже по описанию технических характеристик: Sora 2 генерирует 10-секундные клипы с синхронизированной аудиодорожкой, в то время как первая итерация модели умела создавать только видеоряд. Клипы могут быть ремиксом или начинаться со статичного изображения, а особую популярность снискала функция камео.

На практике это означает, что все ленты сейчас заполнены Сэмом Альтманом, ворующим игровые видеокарты из магазинов электроники. Ну а чего вы хотели? Фантазии у первопроходцев мало, да и его лицо в редакторе — это одно из предлагаемых. В лучшем случае он будет ползать по полу офиса OpenAI в кигуруми кота и истошно мяукать.

На самом деле интересные бенчмарки всё же придумывают. К примеру, как показывает Кристофер Фрайант, Sora 2 выдаёт отлично выглядящие 10-секундные клипы геймплея любой популярной видеоигры. Многие хвалят Sora 2 за отличное понимание физики.

Как утверждает дата-саентист из Meta¹ Колин Фрейзер, не всё так однозначно. У себя в микроблоге он показал несколько примеров откровенных косяков Sora 2. Ниже представлена склейка шести из них.

Здесь опробованы разные промпты. Чаще всего они связаны с отделением одного объекта от другого или их совмещением в единое целое. Как показал скептик, с взаимодействием объектов в кадре у Sora 2 откровенно туго:

  1. Вылезающий из автомобиля человек. В ответ на промпт Фрейзера модель зажимает ногу человека дверью.

  2. Прыгающий через обруч пёс никуда не прыгает.

  3. Пиво ведёт себя как желе, у бармена с пальцами случилась каляка-маляка.

  4. Кстати, попытки упростить промпт про вылезание из машины ничего хорошего не приносят.

  5. Даже когда Колин явно задал в промпте состояние стакана, сосуд с апельсиновым соком опустошён до дна не был — уровень жидкости даже не изменился.

  6. Ну и задувание свечей всё так же на реальность не походит.

Твиты Фрейзера вызвали резко негативную реакцию. У себя в микроблоге он пожаловался, что люди в ответ на поиск изъянов начинают злиться. Колин не понимает, почему многие настолько эмоционально инвестированы в какое-то приложение для генерации и листания видеороликов.

(1) Холдинговая компания Meta — экстремистская организация, её деятельность запрещена.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

OpenAI представила Sora 2 с синхронизированным аудио и системой персонализированных камео

OpenAI выпустила вторую версию модели генерации видео Sora с поддержкой высококачественного аудио и функцией Cameo для создания персонализированных аватаров. Модель доступна через новое iOS-приложение с социальными функциями для США и Канады.

Технические характеристики

Команда OpenAI позиционирует Sora 2 как "GPT-3.5 момент" для генеративного видео — переход от proof-of-concept к практически применимой технологии. Модель генерирует видео с разрешением 720p при 30 FPS длительностью 5-10 секунд.

Ключевые возможности:

  • Синхронизированная генерация видео и аудио

  • Улучшенная симуляция физических процессов

  • Поддержка мультисценарных инструкций

  • Различные визуальные стили от фотореализма до анимации

Система Cameo

Функция Cameo позволяет создавать персонализированные аватары на основе однократной записи голоса и внешности. Система переносит внешний вид и голос в любые сгенерированные сцены.

Контроль безопасности:

  • Только авторизованные пользователи могут использовать ваш камео

  • Полная видимость всех видео с вашим образом

  • Возможность отзыва доступа в любой момент

  • Усиленные ограничения для несовершеннолетних

  • Блокировка дипфейков публичных персон без согласия

Симуляция физики

Основной прорыв касается моделирования сложных физических процессов. Модель корректно обрабатывает гимнастические трюки, отскок баскетбольного мяча, плавучесть при акробатике. Ранние модели демонстрировали артефакты при движении объектов — Sora 2 показывает существенное улучшение.

iOS-приложение

Параллельно запущено iOS-приложение с функциями социальной сети для создания видео, ремикса контента и просмотра персонализированной ленты ИИ-видео.

Возможности:

  • Создание видео из текстовых промптов

  • Ремикс существующего контента

  • Персонализированная лента на основе взаимодействий

  • Рекомендации через языковые модели OpenAI

OpenAI заявляет, что не оптимизирует приложение для максимизации времени в ленте, а фокусируется на стимулировании создания контента.

Доступность и монетизация

Приложение запускается по инвайтам в США и Канаде. Изначально Sora 2 будет бесплатной с "щедрыми лимитами". Pro-версия на sora.com стоит $200/месяц и обеспечивает доступ к расширенным возможностям. API в разработке для корпоративных клиентов.

Сравнение с конкурентами

Позиционирование:

  • Google Veo 3 — 1080p, снижение цен на 50%

  • Runway Gen-3 — профессиональный видеопродакшн

  • Pika — эффекты и анимация

  • Sora 2 — социальный подход с персонализацией

Ограничения

Текущая версия ограничена разрешением 720p и длительностью 5-10 секунд. Качество симуляции физики улучшено, но может демонстрировать артефакты в сложных сценах с множественными взаимодействующими объектами.

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0