Comments 16
А куда ложить Flux Kontext dev файлик?
WebUI Forge реально бодро идёт на 4070. Удивлён
Ну прикольно, но нейронке не хватает фантазии, поменять их местами она уже не может.
Q5_K-S, RXT 3080, 112 sec comfyUI

Пропишите промт, что кот держит в руках девушку, но в таком случае лучше сгенерировать в начале антропоморфного кота с мускулами и потом уже "соединять" с девушкой или маленькой девочкой как в вашем случае.
Лучше используйте Q8_0 или хотя бы Q_6 для генерации - возможно это займёт гораздо больше времени (хотя ComfyUI лучше оптимизирован), но не будет таких больших проблем с руками и ногами
У флюкс контекст самый хороший цензор в локальной модели. Так что не заливай.
В таблице лично мне не хватает среднего времени на генерацию в зависимости от модели, хотя бы относительно друг друга. (какой t выигрыш fp16-> Q8? например ).
GGUF всегда медленнее чем safetensors - так как при GGUF дополнительно уходит время на "распаковку" модели . Я использую Q8_0 вместо fp16 так как у меня нет видеокарты на 24гб, но хочется иметь качество как при fp16), а если всё же запустить 24гб модель на 12гб карте - выходит сообщение о нехватке памяти или генерация может занять минут 20 - 25 на 1 кадр)
Если у вас карта на 24 или 32гб (5090) - смело грузите fp16, в противном случае Q8_0 - лучший выбор)
Отправляю читать memory management из официального гайда Forge. Сейчас и фордж и Комфи сгружают веса и вполне можно работать с полной моделью. Причем на вменяемых скоростях. 5 минут - в статье явно что-то не то, либо с разрешением поданным в латент всё плохо, либо ещё по какой-то причине инференс из vram вылезает. Q8 не даёт качество как fp16.
Спасибо, попробую на даче. Это работает под Win10/11?
Надо конечно указывать пиковые значения RAM и VRAM - вот у меня под рукой машина с 3060ti 8Гб и 16гб памяти, Forge крутится - вот и думай, взлетит или нет Kontext, что бы зря не тянуть десятки гигов моделей. Не у всех же есть 32Гб а тем более 64.
В статье к примерам указаны потребляемые показателы VRAM внизу к сгенерированным изображениям:

Из опыта генерации на 8гб 4070 - вам потребуется установить потребление VRAM на 6гб и оставить 2гб для расчёта для Q8_0.
К сожалению, у меня нет "железа" с вашей "начинкой", но могу посоветовать, именно в вашем случае, либо загрузить Q8_0 - работать будет, но очень медленно, либо Q6_K - хороший баланс - точно хватит вашего железа, но надо включить Block Cache на 0.12 для ускорения или загрузить квантиованный nf4 + Lora - ставьте 7гб на VRAM - настройка сверху в WebUI
Девушки, котики и Flux Kontext: как выжать максимум из WebUI Forge?