Как стать автором
Обновить

Комментарии 8

В SD и ей подобные просто не заложено свойство темпоральности, так что на их основе нормальное видео никогда не получится. Сеть должна видеть и восстанавливать всю последовательность кадров в сцене.

У нас все кадры, поэтому связность выше, но кадров меньше

Работа по повышению стабильности видео активно идет. Вот например: https://arxiv.org/abs//2306.07954. Так что надо просто подождать. Смысла эти костыли с гридами городить особого нет, если только попробовать, чтобы самостоятельно убедиться, что это не будет работать...

Однако мы поняли, что наш подход лучше в плане генерации динамических сцен, а также обладает более высокой связностью между кадрами.
можете поделиться большим количествам данных о процессе как обучения так и вообще методологии?

Метод известный и очевидный, на Цивитаи такие модели находятся по тегу gif https://civitai.com/tag/gif

Сам метод - генерятся все кадры на одной картинке в виде сетки. У автора гифки по 9 и 16 кадров, 9 - это картинка 768x768 с сеткой 3 на 3 (подобные примеры есть на Цивитаи). 16 кадров - это 1024 на 1024 с сеткой 4x4 - вот это уже мощно! Плюс у автора широкая вариативность промпта, в сравнение с существующими аналогами. Результаты интересные.

Все так, я не смотрел в деталях цивитовские, думаю мы чуть больше трейнили на большем датасете, но может не прав

Цивитаивские очень примитивные по части промпта, у вас модель намного разнообразнее. Может быть будет полезней для продвижения проекта выложить модель, на ту же Цивитаи например? Сейчас генераторы видео активно развиваются, а такой подход на SD вряд ли сможет с ними конкурировать, он скорее как игрушка. А если открыть модель, то может ваши усилия на обучение принесут большую пользу для проекта.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории