daniilshat Feb 14 2024 at 21:11

Stability AI выпустила модель Stable Cascade для генерации изображений

1 min

13K

Image processing*Machine learning*Artificial Intelligence

+15

Comments 8

HomoLuden Feb 15 2024 at 05:18

Тема си... тьфу.. новой диффузии не раскрыта. На картинке каскады соответствую аналогам SDXL (да и SD1.5 кажется). Текст в пространство латентов есть и там и там. Латентов декодинг аналогично. VAE стадия также есть.

Я подозреваю под нововведением каскадов имеется в виду что-то иное, но не сами блоки на картинке в статье. Пошел изучать матерную часть.

HomoLuden Feb 15 2024 at 05:24

Вот прям на поверхности во вводной от Stability AI... "основана на архитектуре Вюрстчена" (не факт что правильно транслитировал сложную фамилию). Эта архитектура интересная и многообещающая с точки зрения количества ресурсов для тренировки. Она использует сильное сжатие латентов (грубо говоря, один элемент латентов разворачивается в большее количество пикселей).

Однако пока оф. скрипты тренировки требуют от 30Гб VRAM. Ждём апдейта от Kohya_ss

Roshalsky Feb 15 2024 at 08:03

Это вюрстхен - колбаска, сосиска на немецком.

Старые модели рисовали в латентном пространстве картинку в 8 раз меньше итоговой, а эта вроде в 24 раза

HomoLuden Feb 15 2024 at 05:38

Пока что заявления о меньшем количестве ресурсов не соответствуют действительности. Я могу делать тюнинг SDXL Unet-only либо полный тюнинг LoRa для SDXL на Tesla P40 (24G). Причем для Лорки могу использовать Batch 2 + Grad accumulation 3. Тут же по самому минимуму 30G требуется для Лорки. Такое себе...

rkfg Feb 16 2024 at 09:44

Для лор лучше всего не применять аккумуляции и бэтчинг, они от этого мутнеют. Это хорошо для полноразмерного файнтюнинга на тысячах изображений, потому что там важна генерализация, а лоры всё же больше для специализации используются (добавление одного концепта/персонажа), за исключением стилевых. Там, скорее всего, бэтчинг будет наоборот полезен.

Я для 1.5 тренил, для интереса пробовал разные размеры бэтчей, на 24 Гб можно и 20-30 поставить, прожуёт. Так вот, на больших размерах концепт полностью вымывался, в ноль. Я тренировал на фото человека, и в результате на картинках получались пустые локации без единого человека. То же самое на рисованных персонажах, всё быстро схлопывается. Например, Go Gopher уже после нескольких ипоков стал рисоваться как один большой круг с точкой, а потом просто исчез. Очевидно, модель из-за слишком большого усреднения в бэтче (я знаю, что это технически не усреднение, но по факту работает аналогично) захватила только неизменную форму больших глаз, потеряв остальное, а потом и её «забыла».

Так что оптимальнее всего ставить размер бэтча и аккумуляции в 1 и забыть про них вообще. Да, видюха будет нагружена не полностью, но качество результата будет ощутимо выше. Стили я практически не тренировал, но интуитивно кажется, что там большие бэтчи будут работать лучше. Полный файнтюнинг тоже не делал.

falcon4fun Feb 15 2024 at 13:48

Тема сисек как раз таки лучше всего раскрыта :D

ТенсорАии сивитАи не дадут соврать

HomoLuden Feb 15 2024 at 05:47

В ридми гитхаба другая информация. Главное отличие не в каких то каскадах, которые плюс-минус такие же как и в других моделях, а в адаптации архитектуры Вюрстчена, которая использует сильное сжатие латентного пространства. Статью сюда надо бы обновить с добавлением менее маркетологичной инфы с гитхаба.

7313 Feb 15 2024 at 13:20

В Буратино добавили уже локальную версию

https://pinokio.computer/