Как стать автором
Обновить

Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров16K
Всего голосов 18: ↑18 и ↓0+18
Комментарии10

Комментарии 10

Интересно, водяные знаки shutterstock это потому что её обучали на стоковых фото? =)

Скорее потому что на стоковых видео. А с ними хорошо размеченных датасетов гораздо меньше, чем картиночных. Тем более, что ресурсов для хранения и разметки требуется больше.

Если я правильно помню, в своей статье авторы упоминали датасет от LAION, а также Webvid. Shutterstock, скорее всего, попал в Лайоновский, так как уже был казус со Stable Diffusion-ом, выдающим ватермарки Шаттерстока и Getty Images (последние даже собирались с ними судиться). А парсить Ютуб для исследователей, как мне кажется, было бы ещё более сомнительной практикой

Спасибо за разъяснение.

пользуюсь Easy Diffusion, которая, что очевидно, в ModelScope text2video не смогла. Просто не определяет ни папку, ни все остальное.

Пришлось "поставить" StableDiffusion WebUI, который, как это не удивительно, даже не смог стартануть вообще.

Все по мануалу: питон и ГИТ поставлены со всеми нужными галочками. При команде "git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git" с Гитхабоского мануала просто ругается "не знаю никаких гитов", батники всяческих "вэб-уи" в строгом анабиозе (Couldn't launch python. exit code: 9009). При запуске питоносвкого скрипта launch стартует, подгружает 2 гига чего-то там и досвидосики.

Работает железно, подумаешь не запускается(С)

не знаю никаких гитов

Так у вас вообще git в системе не стоит? Начните с того чтобы поставить его

Или же он стоит, но не добавлен в PATH (см. переменные среды в Windows), как, вероятно, и питон

Очень интересно как её дообучить или обучить заново? Реально ли это сделать в домашних условиях, пусть и с хорошим железом типа пары RTX3090 соединенных nvlink?

Есть репозиторий для дообучения от ExponentialML https://github.com/ExponentialML/Text-To-Video-Finetuning. Он работает по принципу Tune-A-Video, то есть обучается не вся нейросеть, а только слои CrossAttention (то, что связывает фичи текста с фичами видео). Написано, что точно работает для 3090, и если включить в скрипте пару оптимизаций, то можно уложиться в 16 гб VRAM.

А есть ли возможность использовать image2video с этой моделью? Просто первый кадр заранее подставлять

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории