Stable Diffusion WebUI Forge: Шаг 10. Текстовая инверсия / Хабр

Текстовая инверсия (Textual Inversion) – это метод, который позволяет добавлять новые объекты или стили к имеющейся у нас модели. Файлы текстовой инверсии с объектами обычно имеют небольшой размер с расширением .pt или .safetensors. По сути, эти файлы являются дополнительными модулями для Stable Diffusion WebUI Forge и используемой нами модели FLUX.1 (например, flux1-dev-bnb-nf4-v2.safetensors), которые отображаются на закладке Txt2img / Textual Inversion.

Другими словами, текстовая инверсия очень быстро и без особых усилий может нам помочь персонализировать создаваемое изображение.

Например, представьте себе, что вам нужно создать изображение с Герольдом – главным героем игры «Ведьмак 3». Но не просто изображение, а чтобы его лицо было похоже на известного киноактера Генри Кавилла.

Что же нам нужно для этого сделать?

Первое, конечно, нужно скачать файлы с сайта civitai.com.

Переходим на сайт. Выбираем раздел модели (Models), затем фильтры (Filters).

И вот какой «сюрприз» нас ожидает…

На сайте нет необходимых нам файлов, совместимых с моделью FLUX.1.

Но! Расстраиваться не нужно.

Все дело в том, что, когда вы купите эту книгу, скорее всего, нужные файлы будут присутствовать на сайте. Поэтом я покажу вам, что делать дальше на примере, но с моделью Stable Diffusion 1.5. А также вы увидите существенную разницу в качестве работы двух моделей.

Для этого на сайте civitai.com мы в фильтре указываем не FLUX.1 D, а SD 1.5 или сразу находим страницу «Henry Cavill Textual Inversion Ultimate 15k» и файл текстовой инверсии. Ссылка для скачивания файла.

Обратите внимание на то, что на странице разработчик указывает, какие конкретно ключевые фразы (или триггеры) позволят активировать этот файл. В данном случае это два слова: «hnrycvllti» и «Henry Cavill».

После того как вы скачали файлы (не забудьте скачать пример картинки со страницы, которую нужно будет переименовать в соответствии с именем файла текстовой инверсии), их необходимо скопировать в папку «embeddings», которая у меня находится по следующему пути: D:\Stable Diffusion WebUI Forge\webui\embeddings.

Для того чтобы понять, как все это работает, давайте сначала создадим изображение с «обычным» ведьмаком:

Пишем «правильный» запрос: «medieval knight in metal armor, man with handsome face, blue eyes, gray long hair».
Выберем модель FLUX, с которой будем работать (flux1-schnell-bnb-nf4-v2.safetensors).
Sampling method: [Forge] Flux Realistic.
Устанавливаем минимальное разрешение изображения. Например, 512 × 512 (Width: 512; Height: 512);
FreeU Integrated (SD 1.x, SD 2.x, SDXL): ставим галочку и оставляем параметры по умолчанию.
PerturbedAttentionGuidance Integrated: ставим галочку и оставляем параметры по умолчанию.
Генерируем изображение.

Получился вот такой ведьмак:

Теперь нам нужно, чтобы у нас вышел ведьмак с лицом киноактера Генри Кавилла. Для этого нам нужно в нашем запросе добавить ключевые слова, которые нам позволят указать Stable Diffusion WebUI Forge и другой модели Stable Diffusion 1.5, что мы хотим воспользоваться соответствующим файлом из закладки Txt2img / Textual Inversion.

Модель Stable Diffusion 1.5 можно скачать по следующей ссылке: https://huggingface.co/pt-sk/stable-diffusion-1.5/blob/main/v1-5-pruned.safetensors.

Для этого в наш запрос вписываем ключевые слова, которые указал на сайте разработчик: «hnrycvllti, medieval knight in metal armor, Henry Cavill with handsome face, blue eyes, gray long hair», а также:

· Выберем модель, с которой будем работать – Stable Diffusion 1.5.

· Sampling method: Euler.

· Устанавливаем минимальное разрешение изображения. Например, 512 × 512 (Width: 512; Height: 512).

· FreeU Integrated (SD 1.x, SD 2.x, SDXL): ставим галочку и оставляем параметры по умолчанию.

· PerturbedAttentionGuidance Integrated): ставим галочку и оставляем параметры по умолчанию.

· Генерируем изображение.

Получается вот такой ведьмак:

Да, мягко говоря, модель Stable Diffusion 1.5 очень слабая и, конечно, устаревшая. Но в данном случае это не важно. Важно другое: она позволила нам увидеть , что такое «текстовая инверсия» в действии.

Какие выводы можно сделать из этого урока:

1. Модель FLUX новая, и для нее сделано не так много вспомогательных моделей, которые бы существенно расширили ее функциональные возможности. Но это не страшно, так как FLUX и без расширений великолепно справляется со своими задачами.

2. Stable Diffusion WebUI Forge – это отличная программа, в которую уже заложена возможность применения текстовой инверсии. Со временем расширений для программы будет очень много.

3. Данный урок вам будет полезен хотя бы потому, что вы теперь знаете, как пользоваться текстовой инверсией.

4. По моему мнению, текстовая инверсия меньше нагружает оборудование и работает очень быстро, но польза от нее сомнительная. Лучше воспользоваться LoRA. Например, для персонажа ведьмака Герольда она есть. Скачать файл модели можно по следующей ссылке: https://civitai.com/models/685562/henry-cavill-as-geralt-of-rivia-the-witcher (не забывайте про ключевые слова на странице разработчика).

Я установил эту модель и поправил старый запрос (добавил вызов модели LoRa и ключевые слова): «<lora:Henry_Cavill_g3ral7:1>, medieval knight in metal armor, man with handsome face, blue eyes, gray long hair, g3ral7, leather armor, heavy leather armor, silver wolf pendant», а также:

Выберем модель FLUX, с которой будем работать (flux1-schnell-bnb-nf4-v2.safetensors).
Sampling method: [Forge] Flux Realistic.
Устанавливаем минимальное разрешение изображения. Например, 512 × 512 (Width: 512; Height: 512).
FreeU Integrated (SD 1.x, SD 2.x, SDXL): ставим галочку и оставляем параметры по умолчанию.
PerturbedAttentionGuidance Integrated): ставим галочку и оставляем параметры по умолчанию.
Генерируем изображение.

Получился вот такой замечательный ведьмак:

***

Чесалов А.Ю. Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов / А.Ю. Чесалов. – 1-е изд. – Москва: Ridero, 2024. – 338 с. – URL: https://ridero.ru/books/generativnyi_iskusstvennyi_intellekt_forge_and_flux_1/ (дата обращения: 17.05.2025). – Текст: электронный.