Установка FLUX.1 Kontext для ComfyUI — подробное пошаговое руководство / Хабр

Больше не нужно несколько часов составлять воркфлоу для ComfyUI или Forge, чтобы сгенерировать картинку по стилю с референса.

Вы просто настраиваете одну модель, и с помощью текстовой подсказки получаете то, что хотите.

Чего будем делать

Поставим ComfyUI на ПК, скачаем все нужные модельки и закинем в папки, а потом погенерим и обсудим плюсы и минусы модели FLUX kontext dev.

Начинаем?

Пара нюансов перед стартом

Если у вас 12-16Гб видеопамяти, будьте готовы к компромиссам: более низкому качеству выходных изображений и долгой-долгой-долгой генерации по 3-10 минут — а также меньшему разрешению.

Если же у вас 24Гб VRAM и выше, то можете смело устанавливать модельки на свой компьютер — особенно если вы дизайнер, архивизер, CG-artist или 3D-моделер.

Накатываем ComfyUI

Очень рекомендую скачать сборку от OreX — в ней сразу установлены все нужные расширения и ноды для работы, и не нужно будет часами изучать, где найти ссылку на очередной костыль.

По этой ссылке вы можете сразу же скачать нужный файл, либо перейти на страницу сборки и сделать это самостоятельно.

Далее нужно будет распаковать сборку через 7zip или любой другой удобный для вас архиватор. Учтите, что 7zip сработает точно без ошибок :)

Разархивировать нужно в корень диска, желательно не системного, чтобы у вас не отваливалась винда каждый раз, когда вы запускаете генерацию. Лучше ставить на отдельный SSD — так вероятность ошибок снижается.

По пути к файлу не должно быть пробелов и кириллицы — то же самое касается и имени пользователя.

После разархивации нам будут нужны эта два файла:

Нужные файлы для корректного запуска ComfyUI

Заходим в первый и запускаем процедуру обновления веб-интерфейса ComfyUI.

Файл для запуска процесса обновления ComfyUI

Ждем открытия консоли и высматриваем строчку "Для продолжения нажмите любую клавишу..." — после этого можно закрывать консоль.

Далее можем запускать веб-интерфейс с помощью второго файла — нужно просто по нему два раза кликнуть, после чего снова запустится консоль, которую не нужно закрывать.

В браузере автоматически откроется вкладка с веб-интерфейсом — она зависит от консоли, поэтому закрывать ее не нужно!

Все, установка ComfyUI завершена! По ходу дела могут возникать множественные ошибки, решение которых можно найти на бусти автора сборки, либо пообщаться с ChatGPT или любой другой сеткой.

Важно понимать, что ошибки будут даже у опытных пользователей, так как это не проприетарное ПО, а открытое — разрабатывает его огромное сообщество.

Загрузка и установка моделей FLUX Kontext dex

Вот все нужные ссыл��и:

1. FLUX Kontext dev fp8 scaled — это основная модель, которая умещается в 24Гб видеопамяти и позволяет дополнительно подключить модели LoRA или ControlNet. Она выдает хорошее качество и слушается подсказки в 90% случаев.

Чтобы скачать эту модель, нужно будет зарегистрироваться или войти на HuggingFace, после чего согласиться с пользовательским соглашением.

2. FLUX Kontext GGUF — для слабых видеокарт с видеопамятью от 4 до 8 Гб. Качество будет намного ниже, но зато работает.

3. VAE для моделей FLUX — подойдет не только для Kontext, но и других разновидностей FLUX (обычная dev, GGUF и т.д.)

4. CLIP — необходимый компонент для работы модели, отвечает за преобразование текстовой подсказки в токены.

5. T5XXL_fp16 — текстовый энкодер, который также отвечает за распознавание текстовой подсказки и преобразование ее в токены для модели генерации.

Кладем основную модель FLUX Kontext в папку

После того, как вы скачали полноценную или gguf версию, вам нужно будет положить их в папку D:\ComfyUI\ComfyUI\models\diffusion_models.

Модель в нужной папке models/diffusion_models

Далее разберемся с VAE — помещаем в соответствующую папку с таким же названием.

Теперь размещаем модели CLIP и T5XXL — их нужно положить по пути D:\ComfyUI\ComfyUI\models\text_encoders

Все, мы установили основные модели, которые позволят вам работать с моделью FLUX Kontext 1 dev! 😉

Начинаем работу в ComfyUI с моделью FLUX Kontext dev

Перезагружаем ComfyUI, после чего добавляем воркфлоу, позволяющий связать модели воедино и сгенерировать / преобразовать ваше первое изображение!

Чтобы продолжить, загрузите воркфлоу и просто перетащите файл на рабочую область ComfyUI.

Осталось несколько шагов, после чего можно приступить к генерации!

Шаг 1 — Выставляем пути к моделям

Все воркфлоу поделено на шаги, и сейчас мы по ним пройдемся.

Первым делом нужно проставить все пути к скачанным моделькам, которые мы раскладывали по папкам.

Шаг 2 — загрузка изображения

Далее загружаем изображение, которое хотим изменить.

Шаг 3 — Вписываем промпт

Модель очень привередлива к формулировкам, грамматике, смыслу. Не получится писать от балды, как в SD 1.5 — нужно будет продумывать каждую деталь и много экспериментировать — именно поэтому лучше не тратить свое время, если у вас видеокарта обладает малым количеством VRAM.

Даже на 4090 не всегда хватает терпения протестировать несколько промптов на разных настройках, что уж говорить про 4060 или 3060.

И снова напомню, что на младших видеокартах модели FLUX будут гораздо слабее — да, вы поэкспериментируете пару вечеров, но в реальной работе это мало поможет...

Генерируем!

Жмем CTRL + Enter и молимся, что все заработает. Если отлетает и консоль выдает ошибку, либо пишет: "Нажмите любую клавишу, чтобы продолжить...", то закрываем все программы на ПК и перезагружаем консоль, после чего пробуем еще раз.

В любом случае будут ошибки, нужно научиться с ними справляться. Я сидел три дня со своей 4090 и кусал кактус, но зато получил + 1 офигенный инструмент для работы и развлечений :)

Главные плюсы модели FLUX Kontext

➕ Kontext работает в отрыве от ControlNet — достаточно просто подсказки.

Теперь не нужно часами выстраивать воркфлоу с контролнетами и костылями — достаточно найти исходник и стилизовать его с помощью грамотного промпта.

Ниже реальный пример из практики: мне сначала нужно было вытащить line-art из фотографии контейнера, с чем я с трудом справился с помощью SDXL + Canny + ручной доработкой. После возникла потребность стилизовать этот же контейнер под разные стили, чтобы разработать концепцию сайта.

Потратил я на это часа два, но задачу выполнил — а затем вышел Kontext...

И на ту же задачу ушло минут 15, если не считать освоения. Плюс я сделал множество стилей, которые были недоступны на SDXL.

Примеры стилизации контура изображения с помощью FLUX Kontext

➕ Второй плюс — работа с контекстом изображения.

Да, вы просто можете загрузить нужную фотографию и изменить то, что вам нужно, а также сохранить необходимые детали.

Изменение окружения персонажа без существенных артефактов на лице

➕ Умение в полупрозрачные материалы и внимание к мелким деталям

Как же меня задолбало подбирать методы для генерации стекла или воска на SDXL или том же FLUX nf4... Это какой-то кошмар.

Теперь я могу написать, что мне нужно стекло, и моделька сделает стекло. Вот так.

Пример генерации полупрозрачных материалов с помощью FLUX Kontext

➕ Еще один плюс — получение детского искреннего удивления от возможностей технологий

Посмотрите на пример ниже: разве это не чудо? Да, аргумент звучит сомнительно, но нейросети меня никак не отпускают вот уже более 4-х лет... Я и в ВУЗе курсач писал с применением нейронок, когда их нужно было ставить и кодить вручную, и сейчас генерирую на досуге и в рабочих задачах.

Пример реставрации фото с помощью FLUX Kontext

Минусы FLUX Kontext

➖ Скорость генерации и потребление видеопамяти

Непривычно ждать по минуте, когда на SDXL генерация занимает 10-15 секунд. Особенно это заметно при SD Upscale — там вообще до 3-х минут доходит...

Кстати, нужна статья по апскейлу с помощью FLUX?

➖ Огромный аппетит модели к вычислительным ресурсам ПК при обучении LoRA

Сразу скажу, что есть онлайн-сервисы, позволяющие обучить кастомные модели на сервере, однако мне всегда было удобно создать несколько лор для SDXL и наслаждаться точным повторением стиля. И все это было на моем ПК.

➖ Сложность использования ControlNet и надстроек.

Да, видеопамяти будет вечно не хватать и для этого — я уже протестировал несколько воркфлоу, и скажу, что их приходилось менять, обрезать лишнее, чтобы у меня не вылетал браузер или консоль.

Нужно очень хорошо шарить в этой области, чтобы создавать оптимизированную схему. На Civitai, в основном, лежит полное говнище, на тестирование которого уходит куча времени.

Если на SDXL можно все затестить за пару минут, то тут приходится качать модельки по 8-12 Гб и надеяться, что все запустится.

А вот и минус день вашей жизни, да еще и летом — класс.

Конечно, можно и с SDXL неделями разбираться, но сейчас вопрос времени встает особенно остро.

Завершаем

Все, давайте закругляться. Если статья была полезна, можете поделиться ею с друзьями — это самая лучшая поддержка для меня :3

Если вам будет интересно больше узнать обо мне или моих проектах, коих немало, то прошу на мой личный сайт. Там все бесплатно и без рекламы :-)

Если нужна будет помощь в установке и использовании данной нейронки в дизайне, можете писать мне в тг.