Firemoon 26 июн 2024 в 08:07

Как быстро растут нейросети: прогресс Stable Diffusion за все время

6 мин

10K

Блог компании SelectelIT-компанииИскусственный интеллектМашинное обучение*Научно-популярное

+36

Комментарии 16

AlexB17 26 июн 2024 в 08:36

Похоже зафайнтюненые SDXL модели останутся с нами надолго - такая надежда была на локальный SD3 и такое разочарование...

Zlobnyi 26 июн 2024 в 21:55

А можете в двух словах описать что это за тюнинг? Я их даже качал и генерил с их помощью картинки, но без понимания что я делаю )

KMiNT21 27 июн 2024 в 17:38

Просто берется датасет (новые изображения + их словесные описания) и модель любая (например, базовая), и запускается тренировка модели.

Если обновляются веса в этом же файле, то это будет новый чек-поинт (т.е. такой же файлик, только байтики внутри чуть другие). Но можно записывать результат и в виде отдельного небольшого файла (см. LoRa).

Для дообучения модели своим датасетом можно использовать, например, OneTrainer.

Pol1mus 26 июн 2024 в 10:35

Почему у них такие маленькие требования. LLM жрут видеопамять сотнями гигабайт а для рисования достаточно 4?

Firemoon 26 июн 2024 в 11:00

Я могу ответить только достаточно поверхностно: LLM и рисующие нейросети имеют разную специфику и, соответственно, архитектуру.

Ранее в статье про Midjourney я писал, что у них появилась команда /shorten, которая немного показывает как работает токенайзер, который удаляет предлоги и прочий «шум». Ну и генерация изображения -- это итеративный процесс, в котором картинка за пару десятков шагов «вытягивается» из шума. Причем картинки, в общем-то, понятны на любом языке. На страничке анонса SD3 написано, что их новые модели имеют от 800 миллионов параметров до 8 миллиардов. Примем эти «параметры» за некую метрику размера модели.

Языковые модели -- это трансформеры, которые получают текст на вход и «угадывают» какой токен должен быть следующим. И с текстом есть проблемы: языков много.

Для сравнения GPT-J-6B, опенсурсный аналог GPT-3, состоит из 6 миллиардов параметров и (в моих тестах) достаточно часто говорит дичь. Причем только на английском. Википедия заявляет (а она может врать), что настоящая GPT-3 содержит 175 миллиардов параметров, ну и GPT-3 уже умела говорить на многих языках.

Отсюда простой вывод: чем больше параметров в модели -- тем больше нужно мощности, чтобы с ней поладить.

Pol1mus 26 июн 2024 в 11:29

Мне кажется надо плясать от размера обучающего набора. Картинки намного больше весят чем тексты.

Moog_Prodigy 26 июн 2024 в 13:38

Картинки весят больше, но вы не правы. Можно просмотреть десяток или сотню картинок с котом, и потом вы уже сможете хотя бы словесно его описать, что у него вот такие вот ушки, такие размеры, есть хвост, такой вот носик и тд. Вы после этого сможете отличить кота от собаки. Но при этом вы не описываете как кот устроен внутри, и что он вообще делает. Вы знаете что такое парейдолия? Вот SD как раз так и работает на этом принципе, если не вдаваться в детали. На входе у нее картинка из случайных пикселей, задаваемых сидом, а уже затем модель ищет в этом шуме нечто похожее на наш запрос. И так много раз (параметр Sampler Steps). В итоге на выходе мы получаем нечто похожее на наш запрос. Или нет, если накрутить CFG.

В случае текстовых моделей, для того, чтобы описать понятие "кот", нужно прочесть условно говоря, несколько десятков энциклопедий, полностью разобраться в анатомии, повадках и мнениях других людей - владельцев котов, ветеринаров, заводчиков и тд. А потом связать это в многомерном пространстве в тензор. И вот эти все шаги на каждое понятие. Потом они внутри все хитросплетаются, и получается некий аналог Вики, где вообще любое слово - есть ссылка да множественная. Описал по простому. Но вот именно поэтому LLM такие прожорливые - они слишком много знают. Именно эта избыточность дала им такое свойство - быть ИИ, хоть и не все это признают (ну назвать то можно как угодно). Можно конечно сказать "а зачем мне в модели китайский, суахили или иврит?" Но она не хранит прям конкретные словари, а именно понятия. Уберете эти языки - качество модели упадет. Уберете еще что-то - качество упадет. И вот мы ярко видим, как лоботомия моделей (цензура) напрямую влияет на качество работы. Убирают неудобные темы, политику, секс, а в итоге получают тупенького дауна, который даже черный квадрат нарисовать не в состоянии "это нарушает чьи то там права правоторговцев".

Aizz 28 июн 2024 в 11:49

Кстати, по поводу "Убирания неугодного" пример как раз SD3 очень показателен. На том же реддите есть картинки, в которых сравнивают оригинальный SD3 и с искусственно разбалансированными весами модели. В обычной ситуации это ухудшает качество, а в случае с SD3 наоборот - улучшает, потому что начинает проходить сквозь фильтр "правильного".

Moog_Prodigy 28 июн 2024 в 17:51

А как значит "улучшает"? Это "улучшает" только для "некоторых"?Я вот вижу полную деградацию. И во всем интернете об этом говорят. Я пользовался пару раз и оба раза оно мне сказало что я что-то там нурашил. А я хотел получить картинкой простое разбитое окно (разбитое стекло). Локальная SD это делает на раз два. Но она делает вообще что угодно, я уже забыл что такое сайты с вирусами.

SD3 хуже по всем показателям, только по скорости неизвестно, но примерно то же самое что и на локалке. Посему - фтопку! Ничего там хорошего нет.

shadovv76 26 июн 2024 в 11:36

можете ссылку на рефайнеры дать на сивитай?

Firemoon 26 июн 2024 в 11:40

civit.ai -> Models -> Filters -> (выбрать) SD3 -> Закрыть фильтры

Прям ссылку на эту поисковый запрос, увы, нельзя сделать.

shadovv76 26 июн 2024 в 12:52

вчера вечером всё еще действовал временный бан на эти модели. Сивитаи вел консультации с СтабилитиАИ

shadovv76 26 июн 2024 в 12:51

вчера вечером всё еще действовал временный бан на эти модели. Сивитаи вел консультации с СтабилитиАИ

ALogachev 27 июн 2024 в 11:40

"photo of a woman lying in the grass, best quality. " - stable diffusion работает с питерским вайбом... :)

Axelaredz 27 июн 2024 в 12:26

В целом Stable Diffusion 3 Medium работает на 8 Gb VRAM, но частенько падает)
модель которая 6 гиговая вместе текстовыми интерпретаторами.
ComfyUI, карта 2060s, проц rysen 5 3600 6x, RAM 16 Gb, ос Kubuntu 24.04

StarJohn 1 июл 2024 в 20:34

Очень не рекомендую использовать стандартные модели SD для сравнения чего бы то ни было. Они, по сути дела, представляют собой скорее научные эксперименты, чем инструмент, пригодный для использования.

Мало того, что любая, я подчеркну, любая! комьюнити-модель для SD на голову выше стандартной, хорошая модель лучше на порядок, особенно там, где это касается людей. Для примера: epicphotogasm для 1.5 и dreamshaperXL для XL.

Причем все время появляются новые версии и теснят бывших фаворитов на пьедестале.

Я помню, какой жуткой недоделкой SD 1.5 была в сентябре 2022 года, и я просто тогда ее поверил, что из нее может получиться что-то годное, но уже через 6 месяцев стали возникать модели от сообщества, которые отличались от стандартной как небо от земли...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий