akdengi Jun 13 2024 at 12:09

Устанавливаем модель генерации изображений Stable Diffusion 3 на ComfyUI

Easy

2 min

18K

HOSTKEY corporate blogOpen source*Machine learning*Artificial Intelligence

Tutorial

Модель Stable Diffusion 3 вышла вчера, 12 июня, сама модель SD3 Medium и примеры конфигурации были опубликованы в тот же день на Hugging Face. Попробовать модель пока можно только в ComfyUI и вот небольшая инструкция, как это сделать.

Устанавливаем ComfyUI по инструкции
Регистрируемся на Hugging Face, иначе у вас не будет доступа к репозиторию модели. После этого логинимся, заходим в репозиторий и принимаем пользовательское соглашение.
Скачиваем файл модели sd3_medium_incl_clips.safetensors или, если позволяет объем памяти вашей видеокарты, sd3_medium_incl_clips_t5xxlfp8.safetensors. Разница между моделями в том, что первая содержит в себе сразу два текстовых энкодера (OpenCLIP-ViT/G, CLIP-ViT/L), а вторая дополнительно содержит третий энкодер (T5-xxl). Его можно добавить позднее, положим в папку ComfyUI\models\clip, но можно обойтись и без него только первыми двумя.
Кладем .safetensors файл в папку ComfyUI\models\checkpoints.
Загружаем пример потока генерации для ComfyUI sd3_medium_example_workflow_basic.json. Вы также можете загрузить пример с мультипромптом и ресайзом изображения.
Запускаем ComfyUI,
Нажав на Load, загружаем json файл с примером workflow.
Отсоединяем линки от блока TripleCLIPLoader.
Щелкнув на желтую точку clip у CLIP Text Encode (Prompt) и CLIP Text Encode (Negative Prompt) тянем от них линию и подключаем линк к точке CLIP у Load Checkpoint.
В Load Checkpoint выбираем модель sd3_medium_incl_clips.safetensors.
В Seed ставим Control after generate в randomize, вводим промпт, нажимаем на Queue Prompt и наслаждаемся возможностями новой модели. На Nvidia RTX 4060 с 8 Гб видеопамяти генерация идет со скоростью 1.35-1.4 итераций в секунду и на картинку 1024x1024 с 30 итерациями уходит около 25 секунд.

P.S. Если у вас нет мощной видеокарты, то можно развернуть ComfyUI и модель на наших vGPU серверах. Как только поддержка SD3 появится в AUTOMATIC1111, мы добавим генерацию изображений с помощью нее в наш AI чат-бот.

P.P.S. Для подключения энкодера t5xxl, который позволяет увеличить длину распознаваемого промпта с 144 символов до 4К, используйте данную схему:

Tags:

Hubs:

If this publication inspired you and you want to support the author, do not hesitate to click on the button

Устанавливаем модель генерации изображений Stable Diffusion 3 на ComfyUI

Articles

Information