timonin 22 окт 2024 в 20:22

Stability AI представила Stable Diffusion 3.5: Тестируем новую модель на реальных задачах и сравниваем с SDXL и FLUX

Простой

6 мин

19K

ДизайнИскусственный интеллектБудущее здесь

Обзор

+10

Комментарии 17

breslavsky 22 окт 2024 в 21:19

Почему все так не любят NSFW?

timonin 22 окт 2024 в 21:21

Хотят больших корпоративных денег, а корпоратам NSFW не надо, им надо чтобы безопасно все было =)

br0 23 окт 2024 в 12:21

Может ждут когда порнхаб захочет стать спонсором?

breslavsky 23 окт 2024 в 18:46

Может скинуться всем тогда? :-)

tempick 22 окт 2024 в 22:22

Тут ситуация точная такая же, как и с Flux, из дата сета был убран весь NSFW контент, в результате модель просто не знает что должно быть у людей под одеждой и рисует - что-нибудь типа одежды в лучшем случае, что-нибудь типа человеческой многоножки - в худшем. Как мы видим с Flux - файтюнингом ситуация не решается.

Я не сильно шарю в этом, но на civitai много Lora, которые дают nsfw генерировать с FLUX. Сам не пробовал ибо flux мой ноут не вывозит, но примеры вижу.

timonin 22 окт 2024 в 22:25

Они работают очень плохо и по факту подходят лишь для инпентинга.

AlexRihter9690 22 окт 2024 в 22:54

Хз, какой-нибудь йиффмикс очень даже неплохие результаты даёт

tukreb 23 окт 2024 в 01:34

Очень плохо работает, и не предсказуемо. Иногда буквально нужно заниматься магией ломать токены, неправильно писать слова или не закрывать скобки, чтобы оно хоть как то приблизилось к нужному результату. Этой самой магией часто и занимаются все те у кого получилось идеальное изображение, вы можете увидеть их промты, если они ими поделились.

Пока самые идеальные модели это всё те же SD 1.5. Даже всеми любимая Pony, проигрывает старым SD.

falseshepard 23 окт 2024 в 03:54

Все беды от архитектуры. Что Flux, что 3.0, что 3.5 ломаются об одну простую проблему - ваш промпт видоизменяется "под капотом". И ничего с этим сделать пока нельзя.

dyadyaSerezha 23 окт 2024 в 02:25

В тексте новая большая модель - до 1 мегапикселя, а средняя - до 2. Не очепятка?

7313 23 окт 2024 в 04:45

Ну для начала 3.5 так и не умеет пальцы. Ну и по мелочам - по непонятным (хотя вполне объяснимым причинам) она практически не знает лиц знаменитостей и морфы типа ((Margot Robbie:0.7) (Scarlett Johansson:0.4):1.1) похоже навсегда остались в эпохе 1.5 и SDXL, окончательно задвинут в угол токен "Natural skin texture" и от пластмассы будем избавляться лорами как и во Flux. И кстати про токены - все эти запросы стиля 1.5/SDXL из примеров она же все равно переводит в какую-то понятную себе последовательность слов и и идее обычный "натуральный" язык в 3.5 должен работать поточнее.

shadrap 23 окт 2024 в 05:38

"Тест точности композиции"- смычки в "воздухе" пальцы в уже "привычном" беспорядке... а лица... вы видели эти женские прекрасные лица... это ж монстры)

Antocyan 23 окт 2024 в 11:59

Да уж, с пальцами всё достаточно плохо у всех моделей, а SD ещё и лица не умеет рисовать в сложных композициях. Может это улучшается настройками, кол-вом итераций и подобным?

Lokai 23 окт 2024 в 09:22

Нет nsfw - остаюсь на pony. Какая-то деградация нейросети, чем дальше, тем меньше умеет.

tukreb 23 окт 2024 в 23:43

Pony не умеет в ControlNet, так же проблемы с Промтами, модель часто ломается и выдаёт радужный шум вместо изображения. Лечиться конечно это танцами, понижать приоритеты или удалять слова, пока модель не перестанет выдавать шум. В общем ни какой предсказуемости. А вот ControlNet решает все проблемы SD 1.5, от пальцев, до лиц.

ENick 23 окт 2024 в 11:36

На HuggingFace, по приведенной автором ссылке, в двух местах указано, что "метод нормализации QK для повышения стабильности обучения."

ENick 23 окт 2024 в 15:55

Кстати, сегодня получил сообщение от email.stability.ai:

Stable Diffusion 3.5 Medium (будет выпущен 29 октября) : с 2,5 миллиардами параметров, улучшенной архитектурой MMDiT-X и методами обучения эта модель предназначена для работы «из коробки» на потребительском оборудовании, обеспечивая баланс между качеством и простотой настройки. Она способна генерировать изображения с разрешением от 0,25 до 2 мегапикселей.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий