@Dmitrii_DAK12 июл в 16:32

Девушки, котики и Flux Kontext: как выжать максимум из WebUI Forge?

Простой

10 мин

6.2K

Искусственный интеллектГрафический дизайн * Обработка изображений * СофтУчебный процесс в IT

Туториал

🛸 Космотекст

+18

Комментарии 16

@Moog_Prodigy 12 июл в 17:45

А куда ложить Flux Kontext dev файлик?

@Dmitrii_DAK 12 июл в 19:04

\webui\models\Stable-diffusion\Flux - последнюю папку "\Flux" - я добавил для удобства так как кроме Flux использую много разных специализированных моделей SDXL

@Bunyaz39 12 июл в 19:19

WebUI Forge реально бодро идёт на 4070. Удивлён

@Dmitrii_DAK 12 июл в 19:30

Да, иногда даже быстрее чем на 3060 - сказывается CUDA-ядра, такт и Tensor-Core нового 4-го поколения. 4070 на Ada 4 068 CUDA 1.98 GHz против 3 584 CUDA 1.78 GHz у 3060 12гб)

@Barnaby 12 июл в 19:30

Ну прикольно, но нейронке не хватает фантазии, поменять их местами она уже не может.

Q5_K-S, RXT 3080, 112 sec comfyUI

@Dmitrii_DAK 12 июл в 20:23

Пропишите промт, что кот держит в руках девушку, но в таком случае лучше сгенерировать в начале антропоморфного кота с мускулами и потом уже "соединять" с девушкой или маленькой девочкой как в вашем случае.
Лучше используйте Q8_0 или хотя бы Q_6 для генерации - возможно это займёт гораздо больше времени (хотя ComfyUI лучше оптимизирован), но не будет таких больших проблем с руками и ногами

@Otupey 12 июл в 23:14

У флюкс контекст самый хороший цензор в локальной модели. Так что не заливай.

@Dmitrii_DAK 12 июл в 23:25

Честно говоря, я не пробовал генерировать на "зацензуренные" темы на этой модели, но это не значит что нельзя использовать другие)

Да и в реальной работе я не встречал клиентов которым нужны были "своеобразные" изображения)

@Otupey 13 июл в 10:14

У тебя первым пунктом почему локально идет что? Я не пробовал но напишу?

@george3 13 июл в 05:51

В таблице лично мне не хватает среднего времени на генерацию в зависимости от модели, хотя бы относительно друг друга. (какой t выигрыш fp16-> Q8? например ).

@Dmitrii_DAK 13 июл в 12:14

GGUF всегда медленнее чем safetensors - так как при GGUF дополнительно уходит время на "распаковку" модели . Я использую Q8_0 вместо fp16 так как у меня нет видеокарты на 24гб, но хочется иметь качество как при fp16), а если всё же запустить 24гб модель на 12гб карте - выходит сообщение о нехватке памяти или генерация может занять минут 20 - 25 на 1 кадр)

Если у вас карта на 24 или 32гб (5090) - смело грузите fp16, в противном случае Q8_0 - лучший выбор)

@Shapic 14 июл в 10:09

Отправляю читать memory management из официального гайда Forge. Сейчас и фордж и Комфи сгружают веса и вполне можно работать с полной моделью. Причем на вменяемых скоростях. 5 минут - в статье явно что-то не то, либо с разрешением поданным в латент всё плохо, либо ещё по какой-то причине инференс из vram вылезает. Q8 не даёт качество как fp16.

@ENick 13 июл в 06:47

Спасибо, попробую на даче. Это работает под Win10/11?

@Dmitrii_DAK 13 июл в 08:51

Да, точно работает на Windows 10 - у меня именно эта система

@AlexB17 13 июл в 10:33

Надо конечно указывать пиковые значения RAM и VRAM - вот у меня под рукой машина с 3060ti 8Гб и 16гб памяти, Forge крутится - вот и думай, взлетит или нет Kontext, что бы зря не тянуть десятки гигов моделей. Не у всех же есть 32Гб а тем более 64.

@Dmitrii_DAK 13 июл в 12:02

В статье к примерам указаны потребляемые показателы VRAM внизу к сгенерированным изображениям:

Потребление VRAM при генерации без Block Cache — Потребление VRAM при генерации без **Block Cache**

Из опыта генерации на 8гб 4070 - вам потребуется установить потребление VRAM на 6гб и оставить 2гб для расчёта для Q8_0.
К сожалению, у меня нет "железа" с вашей "начинкой", но могу посоветовать, именно в вашем случае, либо загрузить Q8_0 - работать будет, но очень медленно, либо Q6_K - хороший баланс - точно хватит вашего железа, но надо включить Block Cache на 0.12 для ускорения или загрузить квантиованный nf4 + Lora - ставьте 7гб на VRAM - настройка сверху в WebUI

Зарегистрируйтесь на Хабре, чтобы оставить комментарий