kabachuha23 мар 2023 в 11:00

Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома

Простой

3 мин

19K

Работа с видео * Машинное обучение * Искусственный интеллектБудущее здесьPython *

Туториал

Cезон machine learning

Из песочницы

+18

Комментарии 10

onyxmaster 23 мар 2023 в 11:52

Интересно, водяные знаки shutterstock это потому что её обучали на стоковых фото? =)

kabachuha 23 мар 2023 в 13:44

Скорее потому что на стоковых видео. А с ними хорошо размеченных датасетов гораздо меньше, чем картиночных. Тем более, что ресурсов для хранения и разметки требуется больше.

Если я правильно помню, в своей статье авторы упоминали датасет от LAION, а также Webvid. Shutterstock, скорее всего, попал в Лайоновский, так как уже был казус со Stable Diffusion-ом, выдающим ватермарки Шаттерстока и Getty Images (последние даже собирались с ними судиться). А парсить Ютуб для исследователей, как мне кажется, было бы ещё более сомнительной практикой

onyxmaster 23 мар 2023 в 14:11

Спасибо за разъяснение.

usernotfound_yet 23 мар 2023 в 16:12

пользуюсь Easy Diffusion, которая, что очевидно, в ModelScope text2video не смогла. Просто не определяет ни папку, ни все остальное.

Пришлось "поставить" StableDiffusion WebUI, который, как это не удивительно, даже не смог стартануть вообще.

Все по мануалу: питон и ГИТ поставлены со всеми нужными галочками. При команде "git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git" с Гитхабоского мануала просто ругается "не знаю никаких гитов", батники всяческих "вэб-уи" в строгом анабиозе (Couldn't launch python. exit code: 9009). При запуске питоносвкого скрипта launch стартует, подгружает 2 гига чего-то там и досвидосики.

Работает железно, подумаешь не запускается(С)

Zrgk 23 мар 2023 в 20:00

не знаю никаких гитов

Так у вас вообще git в системе не стоит? Начните с того чтобы поставить его

kabachuha 23 мар 2023 в 20:00

Или же он стоит, но не добавлен в PATH (см. переменные среды в Windows), как, вероятно, и питон

riv9231 29 мар 2023 в 23:58

Очень интересно как её дообучить или обучить заново? Реально ли это сделать в домашних условиях, пусть и с хорошим железом типа пары RTX3090 соединенных nvlink?

kabachuha 30 мар 2023 в 13:59

Есть репозиторий для дообучения от ExponentialML https://github.com/ExponentialML/Text-To-Video-Finetuning. Он работает по принципу Tune-A-Video, то есть обучается не вся нейросеть, а только слои CrossAttention (то, что связывает фичи текста с фичами видео). Написано, что точно работает для 3090, и если включить в скрипте пару оптимизаций, то можно уложиться в 16 гб VRAM.

Makual 6 апр 2023 в 19:41

А есть ли возможность использовать image2video с этой моделью? Просто первый кадр заранее подставлять

kabachuha 6 апр 2023 в 19:45

Да, на это есть Pull-request (но там необходимо сделать пару правок) https://github.com/deforum-art/sd-webui-text2video/pull/74

Зарегистрируйтесь на Хабре, чтобы оставить комментарий