Комментарии 17
Почему все так не любят NSFW?
Тут ситуация точная такая же, как и с Flux, из дата сета был убран весь NSFW контент, в результате модель просто не знает что должно быть у людей под одеждой и рисует - что-нибудь типа одежды в лучшем случае, что-нибудь типа человеческой многоножки - в худшем. Как мы видим с Flux - файтюнингом ситуация не решается.
Я не сильно шарю в этом, но на civitai много Lora, которые дают nsfw генерировать с FLUX. Сам не пробовал ибо flux мой ноут не вывозит, но примеры вижу.
Они работают очень плохо и по факту подходят лишь для инпентинга.
Очень плохо работает, и не предсказуемо. Иногда буквально нужно заниматься магией ломать токены, неправильно писать слова или не закрывать скобки, чтобы оно хоть как то приблизилось к нужному результату. Этой самой магией часто и занимаются все те у кого получилось идеальное изображение, вы можете увидеть их промты, если они ими поделились.
Пока самые идеальные модели это всё те же SD 1.5. Даже всеми любимая Pony, проигрывает старым SD.
В тексте новая большая модель - до 1 мегапикселя, а средняя - до 2. Не очепятка?
Ну для начала 3.5 так и не умеет пальцы. Ну и по мелочам - по непонятным (хотя вполне объяснимым причинам) она практически не знает лиц знаменитостей и морфы типа ((Margot Robbie:0.7) (Scarlett Johansson:0.4):1.1) похоже навсегда остались в эпохе 1.5 и SDXL, окончательно задвинут в угол токен "Natural skin texture" и от пластмассы будем избавляться лорами как и во Flux. И кстати про токены - все эти запросы стиля 1.5/SDXL из примеров она же все равно переводит в какую-то понятную себе последовательность слов и и идее обычный "натуральный" язык в 3.5 должен работать поточнее.
"Тест точности композиции"- смычки в "воздухе" пальцы в уже "привычном" беспорядке... а лица... вы видели эти женские прекрасные лица... это ж монстры)
Нет nsfw - остаюсь на pony. Какая-то деградация нейросети, чем дальше, тем меньше умеет.
Pony не умеет в ControlNet, так же проблемы с Промтами, модель часто ломается и выдаёт радужный шум вместо изображения. Лечиться конечно это танцами, понижать приоритеты или удалять слова, пока модель не перестанет выдавать шум. В общем ни какой предсказуемости. А вот ControlNet решает все проблемы SD 1.5, от пальцев, до лиц.
На HuggingFace, по приведенной автором ссылке, в двух местах указано, что "метод нормализации QK для повышения стабильности обучения."
Кстати, сегодня получил сообщение от email.stability.ai:
Stable Diffusion 3.5 Medium (будет выпущен 29 октября) : с 2,5 миллиардами параметров, улучшенной архитектурой MMDiT-X и методами обучения эта модель предназначена для работы «из коробки» на потребительском оборудовании, обеспечивая баланс между качеством и простотой настройки. Она способна генерировать изображения с разрешением от 0,25 до 2 мегапикселей.
Stability AI представила Stable Diffusion 3.5: Тестируем новую модель на реальных задачах и сравниваем с SDXL и FLUX