Pull to refresh

Comments 8

Тема си... тьфу.. новой диффузии не раскрыта. На картинке каскады соответствую аналогам SDXL (да и SD1.5 кажется). Текст в пространство латентов есть и там и там. Латентов декодинг аналогично. VAE стадия также есть.

Я подозреваю под нововведением каскадов имеется в виду что-то иное, но не сами блоки на картинке в статье. Пошел изучать матерную часть.

Вот прям на поверхности во вводной от Stability AI... "основана на архитектуре Вюрстчена" (не факт что правильно транслитировал сложную фамилию). Эта архитектура интересная и многообещающая с точки зрения количества ресурсов для тренировки. Она использует сильное сжатие латентов (грубо говоря, один элемент латентов разворачивается в большее количество пикселей).

Однако пока оф. скрипты тренировки требуют от 30Гб VRAM. Ждём апдейта от Kohya_ss

Это вюрстхен - колбаска, сосиска на немецком.

Старые модели рисовали в латентном пространстве картинку в 8 раз меньше итоговой, а эта вроде в 24 раза

Пока что заявления о меньшем количестве ресурсов не соответствуют действительности. Я могу делать тюнинг SDXL Unet-only либо полный тюнинг LoRa для SDXL на Tesla P40 (24G). Причем для Лорки могу использовать Batch 2 + Grad accumulation 3. Тут же по самому минимуму 30G требуется для Лорки. Такое себе...

Для лор лучше всего не применять аккумуляции и бэтчинг, они от этого мутнеют. Это хорошо для полноразмерного файнтюнинга на тысячах изображений, потому что там важна генерализация, а лоры всё же больше для специализации используются (добавление одного концепта/персонажа), за исключением стилевых. Там, скорее всего, бэтчинг будет наоборот полезен.

Я для 1.5 тренил, для интереса пробовал разные размеры бэтчей, на 24 Гб можно и 20-30 поставить, прожуёт. Так вот, на больших размерах концепт полностью вымывался, в ноль. Я тренировал на фото человека, и в результате на картинках получались пустые локации без единого человека. То же самое на рисованных персонажах, всё быстро схлопывается. Например, Go Gopher уже после нескольких ипоков стал рисоваться как один большой круг с точкой, а потом просто исчез. Очевидно, модель из-за слишком большого усреднения в бэтче (я знаю, что это технически не усреднение, но по факту работает аналогично) захватила только неизменную форму больших глаз, потеряв остальное, а потом и её «забыла».

Так что оптимальнее всего ставить размер бэтча и аккумуляции в 1 и забыть про них вообще. Да, видюха будет нагружена не полностью, но качество результата будет ощутимо выше. Стили я практически не тренировал, но интуитивно кажется, что там большие бэтчи будут работать лучше. Полный файнтюнинг тоже не делал.

Тема сисек как раз таки лучше всего раскрыта :D

ТенсорАии сивитАи не дадут соврать

В ридми гитхаба другая информация. Главное отличие не в каких то каскадах, которые плюс-минус такие же как и в других моделях, а в адаптации архитектуры Вюрстчена, которая использует сильное сжатие латентного пространства. Статью сюда надо бы обновить с добавлением менее маркетологичной инфы с гитхаба.

Sign up to leave a comment.

Other news