Pull to refresh

Comments 16

\webui\models\Stable-diffusion\Flux - последнюю папку "\Flux" - я добавил для удобства так как кроме Flux использую много разных специализированных моделей SDXL

WebUI Forge реально бодро идёт на 4070. Удивлён

Да, иногда даже быстрее чем на 3060 - сказывается CUDA-ядра, такт и Tensor-Core нового 4-го поколения. 4070 на Ada 4 068 CUDA 1.98 GHz против 3 584 CUDA 1.78 GHz у 3060 12гб)

Ну прикольно, но нейронке не хватает фантазии, поменять их местами она уже не может.

Q5_K-S, RXT 3080, 112 sec comfyUI

Пропишите промт, что кот держит в руках девушку, но в таком случае лучше сгенерировать в начале антропоморфного кота с мускулами и потом уже "соединять" с девушкой или маленькой девочкой как в вашем случае.
Лучше используйте Q8_0 или хотя бы Q_6 для генерации - возможно это займёт гораздо больше времени (хотя ComfyUI лучше оптимизирован), но не будет таких больших проблем с руками и ногами

У флюкс контекст самый хороший цензор в локальной модели. Так что не заливай.

Честно говоря, я не пробовал генерировать на "зацензуренные" темы на этой модели, но это не значит что нельзя использовать другие)

Да и в реальной работе я не встречал клиентов которым нужны были "своеобразные" изображения)

У тебя первым пунктом почему локально идет что? Я не пробовал но напишу?

В таблице лично мне не хватает среднего времени на генерацию в зависимости от модели, хотя бы относительно друг друга. (какой t выигрыш fp16-> Q8? например ).

GGUF всегда медленнее чем safetensors - так как при GGUF дополнительно уходит время на "распаковку" модели . Я использую Q8_0 вместо fp16 так как у меня нет видеокарты на 24гб, но хочется иметь качество как при fp16), а если всё же запустить 24гб модель на 12гб карте - выходит сообщение о нехватке памяти или генерация может занять минут 20 - 25 на 1 кадр)

Если у вас карта на 24 или 32гб (5090) - смело грузите fp16, в противном случае Q8_0 - лучший выбор)

Отправляю читать memory management из официального гайда Forge. Сейчас и фордж и Комфи сгружают веса и вполне можно работать с полной моделью. Причем на вменяемых скоростях. 5 минут - в статье явно что-то не то, либо с разрешением поданным в латент всё плохо, либо ещё по какой-то причине инференс из vram вылезает. Q8 не даёт качество как fp16.

Спасибо, попробую на даче. Это работает под Win10/11?

Да, точно работает на Windows 10 - у меня именно эта система

Надо конечно указывать пиковые значения RAM и VRAM - вот у меня под рукой машина с 3060ti 8Гб и 16гб памяти, Forge крутится - вот и думай, взлетит или нет Kontext, что бы зря не тянуть десятки гигов моделей. Не у всех же есть 32Гб а тем более 64.

В статье к примерам указаны потребляемые показателы VRAM внизу к сгенерированным изображениям:

Потребление VRAM при генерации без Block Cache
Потребление VRAM при генерации без Block Cache

Из опыта генерации на 8гб 4070 - вам потребуется установить потребление VRAM на 6гб и оставить 2гб для расчёта для Q8_0.
К сожалению, у меня нет "железа" с вашей "начинкой", но могу посоветовать, именно в вашем случае, либо загрузить Q8_0 - работать будет, но очень медленно, либо Q6_K - хороший баланс - точно хватит вашего железа, но надо включить Block Cache на 0.12 для ускорения или загрузить квантиованный nf4 + Lora - ставьте 7гб на VRAM - настройка сверху в WebUI

Sign up to leave a comment.

Articles