Как стать автором
Обновить

Stability AI представила Stable Diffusion 3.5: Тестируем новую модель на реальных задачах и сравниваем с SDXL и FLUX

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров17K
Всего голосов 13: ↑11 и ↓2+10
Комментарии17

Комментарии 17

Хотят больших корпоративных денег, а корпоратам NSFW не надо, им надо чтобы безопасно все было =)

Может ждут когда порнхаб захочет стать спонсором?

Может скинуться всем тогда? :-)

Тут ситуация точная такая же, как и с Flux, из дата сета был убран весь NSFW контент, в результате модель просто не знает что должно быть у людей под одеждой и рисует - что-нибудь типа одежды в лучшем случае, что-нибудь типа человеческой многоножки - в худшем. Как мы видим с Flux - файтюнингом ситуация не решается.

Я не сильно шарю в этом, но на civitai много Lora, которые дают nsfw генерировать с FLUX. Сам не пробовал ибо flux мой ноут не вывозит, но примеры вижу.

Они работают очень плохо и по факту подходят лишь для инпентинга.

Хз, какой-нибудь йиффмикс очень даже неплохие результаты даёт

Очень плохо работает, и не предсказуемо. Иногда буквально нужно заниматься магией ломать токены, неправильно писать слова или не закрывать скобки, чтобы оно хоть как то приблизилось к нужному результату. Этой самой магией часто и занимаются все те у кого получилось идеальное изображение, вы можете увидеть их промты, если они ими поделились.

Пока самые идеальные модели это всё те же SD 1.5. Даже всеми любимая Pony, проигрывает старым SD.

Все беды от архитектуры. Что Flux, что 3.0, что 3.5 ломаются об одну простую проблему - ваш промпт видоизменяется "под капотом". И ничего с этим сделать пока нельзя.

В тексте новая большая модель - до 1 мегапикселя, а средняя - до 2. Не очепятка?

Ну для начала 3.5 так и не умеет пальцы. Ну и по мелочам - по непонятным (хотя вполне объяснимым причинам) она практически не знает лиц знаменитостей и морфы типа ((Margot Robbie:0.7) (Scarlett Johansson:0.4):1.1) похоже навсегда остались в эпохе 1.5 и SDXL, окончательно задвинут в угол токен "Natural skin texture" и от пластмассы будем избавляться лорами как и во Flux. И кстати про токены - все эти запросы стиля 1.5/SDXL из примеров она же все равно переводит в какую-то понятную себе последовательность слов и и идее обычный "натуральный" язык в 3.5 должен работать поточнее.

"Тест точности композиции"- смычки в "воздухе" пальцы в уже "привычном" беспорядке... а лица... вы видели эти женские прекрасные лица... это ж монстры)

Да уж, с пальцами всё достаточно плохо у всех моделей, а SD ещё и лица не умеет рисовать в сложных композициях. Может это улучшается настройками, кол-вом итераций и подобным?

Нет nsfw - остаюсь на pony. Какая-то деградация нейросети, чем дальше, тем меньше умеет.

Pony не умеет в ControlNet, так же проблемы с Промтами, модель часто ломается и выдаёт радужный шум вместо изображения. Лечиться конечно это танцами, понижать приоритеты или удалять слова, пока модель не перестанет выдавать шум. В общем ни какой предсказуемости. А вот ControlNet решает все проблемы SD 1.5, от пальцев, до лиц.

На HuggingFace, по приведенной автором ссылке, в двух местах указано, что "метод нормализации QK для повышения стабильности обучения."

Кстати, сегодня получил сообщение от email.stability.ai:

  • Stable Diffusion 3.5 Medium (будет выпущен 29 октября) : с 2,5 миллиардами параметров, улучшенной архитектурой MMDiT-X и методами обучения эта модель предназначена для работы «из коробки» на потребительском оборудовании, обеспечивая баланс между качеством и простотой настройки. Она способна генерировать изображения с разрешением от 0,25 до 2 мегапикселей.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации