Как стать автором
Обновить

Stability AI опубликовала Stable Diffusion 3.5 Large — модель text-to-image с 8 млрд. параметров

Время на прочтение2 мин
Количество просмотров1.6K

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера: 

🟢 OpenCLIP-ViT/G; 

🟢 CLIP-ViT/L;

🟢 T5-xxl. 

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.
Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️  Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

В целом, модель выглядит лучше 3-й версии. Местами лучше FLUX, метсами хуже. Подтянули эстетику и фотореализм, но согласованность в анатомии все еще не очень. Но самое главное, что далии возможность тренить Лоры, они все исправят. 

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A happy woman laying on a grass",
    num_inference_steps=28,
    guidance_scale=3.5,
).images[0]
image.save("woman.png")

📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.

У себя в канале о машинном обучении, я публикую разбор свежих ml моделей, присоединяйтесь, если любите ml.

🟡Страница проекта

🟡Arxiv

🟡Модель

#AI #ML #Diffusion #SDL #StabilityAI

Теги:
Хабы:
+9
Комментарии0

Другие новости

Истории

Работа

Data Scientist
77 вакансий
Python разработчик
133 вакансии

Ближайшие события

26 октября
ProIT Network Fest
Санкт-Петербург
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань