Comments 10
Интересно, водяные знаки shutterstock это потому что её обучали на стоковых фото? =)
Скорее потому что на стоковых видео. А с ними хорошо размеченных датасетов гораздо меньше, чем картиночных. Тем более, что ресурсов для хранения и разметки требуется больше.
Если я правильно помню, в своей статье авторы упоминали датасет от LAION, а также Webvid. Shutterstock, скорее всего, попал в Лайоновский, так как уже был казус со Stable Diffusion-ом, выдающим ватермарки Шаттерстока и Getty Images (последние даже собирались с ними судиться). А парсить Ютуб для исследователей, как мне кажется, было бы ещё более сомнительной практикой
пользуюсь Easy Diffusion, которая, что очевидно, в ModelScope text2video не смогла. Просто не определяет ни папку, ни все остальное.
Пришлось "поставить" StableDiffusion WebUI, который, как это не удивительно, даже не смог стартануть вообще.
Все по мануалу: питон и ГИТ поставлены со всеми нужными галочками. При команде "git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
" с Гитхабоского мануала просто ругается "не знаю никаких гитов", батники всяческих "вэб-уи" в строгом анабиозе (Couldn't launch python. exit code: 9009). При запуске питоносвкого скрипта launch стартует, подгружает 2 гига чего-то там и досвидосики.
Работает железно, подумаешь не запускается(С)
Очень интересно как её дообучить или обучить заново? Реально ли это сделать в домашних условиях, пусть и с хорошим железом типа пары RTX3090 соединенных nvlink?
Есть репозиторий для дообучения от ExponentialML https://github.com/ExponentialML/Text-To-Video-Finetuning. Он работает по принципу Tune-A-Video, то есть обучается не вся нейросеть, а только слои CrossAttention (то, что связывает фичи текста с фичами видео). Написано, что точно работает для 3090, и если включить в скрипте пару оптимизаций, то можно уложиться в 16 гб VRAM.
А есть ли возможность использовать image2video с этой моделью? Просто первый кадр заранее подставлять
Да, на это есть Pull-request (но там необходимо сделать пару правок) https://github.com/deforum-art/sd-webui-text2video/pull/74
Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома