Stability AI выпустила модель Stable Diffusion XL 1.0 / Хабр

Stability AI объявила о выпуске Stable Diffusion XL 1.0, «самой продвинутой» модели преобразования текста в изображение. Она обеспечивает «более яркие» и «точные» цвета и лучшую контрастность, тени и освещение по сравнению со своим предшественником.

Stable Diffusion XL 1.0 доступна на Hugging Face в дополнение к Stability API и приложениям ClipDrop и DreamStudio.

Джо Пенна, глава отдела прикладного машинного обучения Stability AI, отметил, что Stable Diffusion XL 1.0 содержит 3,5 млрд параметров и позволяет создавать изображения с полным разрешением 1 мегапиксель «за считанные секунды» в нескольких соотношениях сторон.

Модель Stable Diffusion XL 0.9 также могла создавать изображения с более высоким разрешением, но требовала большей вычислительной мощности.

«В Stable Diffusion XL 1.0 доступна тонкая настройка концепций и стилей, — сказал Пенна. — Она также проще в использовании и позволяет создавать сложные проекты за счёт базовых подсказок на естественном языке».

Улучшения коснулись и генерации текста. Stable Diffusion XL 1.0 способна создавать «продвинутые» логотипы, каллиграфию и шрифты на картинках.

Также модель поддерживает inpainting (восстановление недостающих частей изображения), outpainting (расширение существующих изображений) и подсказки в виде картинок. Она понимает сложные, состоящие из нескольких частей инструкции, а также короткие подсказки, в то время как предыдущие модели Stable Diffusion нуждались в более длинных текстовых пояснениях.

Однако возникает опасность, что Stable Diffusion XL 1.0 будет использоваться для создания токсичного или вредоносного контента, в том числе дипфейков. Пенна не отрицает, что злоупотребления возможны, и признает, что модель содержит определённые предубеждения. Он отмечает, что Stability AI предприняла «дополнительные шаги» для снижения возможностей генерации вредоносного контента, отфильтровав данные обучения модели для «небезопасных» изображений, выпустив новые предупреждения, связанные с проблемными подсказками, и заблокировав как можно больше отдельных проблемных терминов в инструменте.

Учебный набор Stable Diffusion XL 1.0 также включает в себя работы художников и писателей, которые выступили против их использования. Компания сотрудничает со стартапом Spawning, чтобы выявить такие произведения, но пока не удалила все из них из своих наборов обучающих данных.

Stability AI также выпускает бета-версию функции тонкой настройки для своего API, которая позволит пользователям использовать всего пять изображений для «специализации» генерации. Stable Diffusion XL 1.0 выпустили и для Bedrock, облачной платформы Amazon для размещения генеративных моделей искусственного интеллекта.

Ранее Stability AI представила Stable Doodle — нейросеть, превращающую наброски от руки в детализированные изображения. Пользователи могут испытать возможности Stable Doodle на веб-платформе ClipDrop.