Комментарии 8
В SD и ей подобные просто не заложено свойство темпоральности, так что на их основе нормальное видео никогда не получится. Сеть должна видеть и восстанавливать всю последовательность кадров в сцене.
У нас все кадры, поэтому связность выше, но кадров меньше
Работа по повышению стабильности видео активно идет. Вот например: https://arxiv.org/abs//2306.07954. Так что надо просто подождать. Смысла эти костыли с гридами городить особого нет, если только попробовать, чтобы самостоятельно убедиться, что это не будет работать...
Однако мы поняли, что наш подход лучше в плане генерации динамических сцен, а также обладает более высокой связностью между кадрами.можете поделиться большим количествам данных о процессе как обучения так и вообще методологии?
Метод известный и очевидный, на Цивитаи такие модели находятся по тегу gif https://civitai.com/tag/gif
Сам метод - генерятся все кадры на одной картинке в виде сетки. У автора гифки по 9 и 16 кадров, 9 - это картинка 768x768 с сеткой 3 на 3 (подобные примеры есть на Цивитаи). 16 кадров - это 1024 на 1024 с сеткой 4x4 - вот это уже мощно! Плюс у автора широкая вариативность промпта, в сравнение с существующими аналогами. Результаты интересные.
Все так, я не смотрел в деталях цивитовские, думаю мы чуть больше трейнили на большем датасете, но может не прав
Цивитаивские очень примитивные по части промпта, у вас модель намного разнообразнее. Может быть будет полезней для продвижения проекта выложить модель, на ту же Цивитаи например? Сейчас генераторы видео активно развиваются, а такой подход на SD вряд ли сможет с ними конкурировать, он скорее как игрушка. А если открыть модель, то может ваши усилия на обучение принесут большую пользу для проекта.
Что мы поняли, когда обучили свою text2video нейронку