Pull to refresh

Comments 6

UFO just landed and posted this here

Это совсем не то. Вы скорее всего имеете ввиду видео, которые получались через прогонку каждого кадра реального видео с генерацией на основе этого кадра и текстового запроса нового результирующего кадра.

Тоесть получаем кадр, генерируем по текстовому описанию что-то новое и оставляем 60% оригинального кадра и 40 - сгенерированного. Повторяем это для каждого кадра. Вот и вся магия.

Здесь же видео создаётся с нуля, с большим продуманным сюжетом, сложными взаимосвязями и в отличном качестве.

Ну технологии конечно схожи. Но, если на Stable Diffusion делать видео, получается каша. То фон меняется независимо от того идет «человек» или просто стоит. То 6 пальцев то 8. То походка неестественная, И таких косяков очень много которые нужно исправлять руками в фотошопе. (а некоторые не исправить) А тут смотрел промо “sora” и оказывается, они говорят что у них таких болезней нет… если написать что человек идет, то значит что у человека должны быть руки, ноги, пальцы в том количестве в каком и есть у человека, и походка должна быть с учетом анатомии человеческого тела. Вот в чем инновация…

У меня один вопрос: если я делаю видео в S.D. Длинной 5 минут, оно делается порядка часа. То тут наверное домашняя машина просто обалдеет… и делать ролик нужно будет только на tesla a100? Не меньше.

идей диффузионной генерации

Генерация видео все равно производится на основе семплов. Но благодаря продвинутым технологиям ремастеринга, можно использовать семплы с очень сильным сжатием с большими потерями. Суть та же как при получении цветных видео с высоким разрешением, из материала архивных черно-белых видеопленок в плохом качестве. Алгоритмы стали крутые. Материал может содержать шума намного больше чем полезной информации, но восстановленная картинка получается фотореалистичной.
А диффузные преобразования нужны для сильного изменения исходного фото- и видеоматериала при создании библиотек, а заодно для уничтожения водяных знаков и сигнатур по которым определяется авторская принадлежность фото-видео материала. К генерации видео это имеет опосредованное отношение. И к хранению семплов тоже. Сжимать с потерями можно и без диффузии.

как работает нейросеть SORA

Так и как она работает?

Если очень коротко, то генерация в Sora основана на интеллектуальном сжатии. Библиотека создается из всех доступных видеоматериалов. Исходное видео обрабатывается нейросетью, с использованием алгоритмов распознавания. Полученный библиотечный объект имеет примерно такую структуру - сжатое видео, дескрипторы распознанных элементов картинки, описание содержания картинки, образцы текстур, элементы картинки сохраненные с малым сжатием.
По текстовому запросу пользователя производится поиск библиотечного объекта, описание содержания которого совпадает с текстом запроса. Выполняется реконструкция видео.

Sign up to leave a comment.