Gugutse Jun 14 2022 at 16:03

Большая версия ruDALL-E, или Как отличить Кандинского от Малевича

13 min

61K

Сбер corporate blogSberDevices corporate blogImage processing*Machine learning*Artificial Intelligence

+41

Comments 20

Alexey2005 Jun 14 2022 at 18:01

Диффузионные модели дают намного меньшую степень контроля над итоговым результатом, чем DALL-E-подобные модели. Потому что если диффузная модель начала сходиться к некоторому изображению, то указать ей, что она сходится куда-то не туда и скорректировать процесс практически невозможно.
В случае же DALL-E можно:

Подать в качестве затравки крошечный кусочек (полоску) изображения, или даже несколько кусочков-патчей, и она будет успешно достраивать это изображение
Следить за процессом генерации пиксельных блоков, и если генерация свернула куда-то не туда — тут же выбрать более устраивающий вариант (поскольку на каждом этапе генерируется вероятностное распределение, и всегда есть из чего выбрать)
Подать результат генерации на вход самой же модели: если изображение в общем устраивает, но есть пара областей, заполненных мусором — можно указать модели перегенерировать их, не трогая остальные области
Если результаты генерации сохранены в качестве тензоров, за счёт работы VAE возможно бесшовно склеивать разные картинки и кусочки картинок, а также выполнять интерполяцию между двумя картинками.

В итоге управляемость и возможность получить вот именно то, что хочется, у DALL-E-моделей намного выше, и работать с ними приятнее. Диффузионные модели вызывают ощущение, будто вы пытаетесь что-то слепить из тёплого желе — как ни старайся, а получается не совсем то.
Уже как-то выкладывал тут примеры работы ruDALL-E.

Повторюсь

Лягушечки:

Разное:

averkij Jun 14 2022 at 20:24

Модель генерирует довольно неплохо. Жалко, что нет весов в открытом доступе.

Еще я бы упомянул ребят из midjourney, у которых тоже классные диффузионные модели:

Иллюстрация к роману «Пикник на обочине» Стругацких

cyberpunk shoe made from glass, stone, gems and neon lamps, dark background with smoke, dust, water, trending on artstations, unreal render

averkij Jun 14 2022 at 20:37

И, кстати, у вас хорошо работает upscale картинки из библиотеки rudalle, спасибо за него.

Vasiliy_S Jun 15 2022 at 07:39

Рисунки интерьеров подкинули мысль, что, наверно, можно настроить сеть генерировать 3D-модели помещений с полным дизайном и мебелью.

Gugutse Jun 17 2022 at 13:48

Да, text-to-3D определенно следующий шаг в развитии :) Тут, конечно, вопрос в том, что нужны качественные и разнообразные 3D-датасеты и эксперименты, позволяющие определить, какое архитектурное решение наиболее удачно. Возможно, вам будут интересны некоторые шаги в этом направлении: Dream Fields (NeRF + CLIP), AvatarCLIP (CLIP + NeuS).

vasilisc Jun 15 2022 at 09:10

Помогите кто знает - как на своих мощностях запустить Kandinsky и Surrealist? Malevich запустил по примерам на GitHub проекта, хоть и с трудом, а вот Kandinsky даже нет намёка или кусочков кода Python.

vasilisc Jun 15 2022 at 14:59

В телеграмме автор указал на то что в свободном доступе пока нет моделей Kandinsky. Нужно подождать до конца лета.

Gugutse Jun 17 2022 at 12:33

Да, в свободном доступе модели Kandinsky действительно сейчас нет. Зато есть файнтюн Malevich (Surrealist XL) – можете попробовать погенерить в колабе (вот здесь веса на hugging face). По поводу мощностей: для Kandinsky требуется A100 (ну или можно три V100 :)

mrxak Jun 22 2022 at 21:04

А зачем A100? Я с Малевичем спокойно балуюсь, переставив device='cpu' и fp16=False на стареньком i7 второго поколения. Просто разрезолвьте get_rudalle_model('Kandinsky', pretrained=True) или хотя бы checkpoint = torch.load или вы просто никогда не пускали свою модель на процессоре? ;)

dimnsk Jun 15 2022 at 18:21

demo API планируется как у суммаризатора ?

Gugutse Jun 23 2022 at 12:50

Да, планируется!

snakers4 Jun 17 2022 at 10:43

На первом этапе модель Kandinsky обучалась командой SberDevices на протяжении двух месяцев на платформе SberCloud ML Space, и этот процесс занял 20 352 GPU-V100 дней.
После этого командой Sber AI была выполнена вторая фаза обучения модели на новых отфильтрованных данных (7 680 GPU-A100 дней). В

@Gugutse

Еще бы вы мне, как плательщику налогов (все помним, про "национализацию" прибыльного Сбербанка из средств ФНБ, то есть из нашего кармана) и клиенту Сбербанка помогли понять, как эти баснословные траты сказываются на:

Лично моем качестве клиентского сервиса в банке;
Развитии отечественных технологий в широком смысле;

То было бы неплохо. Понятно, что Сбер сильно лучше себя ведет, чем другие банки, но это явно перпендикулярно такому аттракциону неслыханной щедрости.

То вы по сути жгете баснословные деньги на поддержку компании Nvidia и делаете весьма сложную, но вторичную работу (просто запускаете чужой готовый код на картинках, но с другими подписями, заваливая неэффективность ресурсами), что по сути только дальше закрепощает наше отставание.

Понятно, что даже освоив все бюджеты видекарту так просто не сделать, но даже в такой сиутации есть сотни и тысячи более приоритетных задач, чем генерация картинок.

Чисто из очевидных идей, если стоит задача освоить максимальное количество денег, то вместо этого можно делать и публиковать реально нужные и качественные датасеты в народнях областях ML, чтобы народ пилил свои полезные приложения.

Gugutse Jun 17 2022 at 13:03

Тут я могу только прокомментировать фразу: просто запускаете чужой готовый код на картинках, но с другими подписями, – кода оригинальной DALL-E нет в открытом доступе (деятельность OpenAI уже давно не соответствует её названию), так что код мы писали сами.

snakers4 Jun 17 2022 at 13:09

Это безусловно прекрасно и характеризует вас с позитивной стороны. Но я так и не получил ответы на свои вопросы.

logran Jun 17 2022 at 19:08

Рискну чисто гипотетически предположить несколько вещей:
1) GPU уже закуплены. Т.е они уже стоят в ЦОД-ах и используются под разные задачи (у сбера много ML-проектов).
2) Они не являются 100% загруженными 24/7/365, т.е часть времени простаивают.
3) Целесообразно их загрузить хоть чем-то (ибо расходы лишь на электричество, что не так много как кажется). А если это «что-то» еще и на имидж комании работает — вообще хорошо.

С ruDALL-E — это только кажется вам, что это генериация интерсных картинок случайным людям. В дальнейшем доступ к такми моделям можно продавать, а на их основе реализовывать кучу различных сервисов для генерации логотипов, иллюстраций, постеров и прочего (за счет файн-тюнинга — весьма точно и под запросы клиентов), что прилично снизит затраты на CG-художников или упростит им работу (давая готовые идеи, шаблоны, и заготовки). Т.е применение (денежное) моделям найдется.

EvilFox Jun 18 2022 at 22:24

Оно пыталось)

FDosha Jun 23 2022 at 12:51

Классно наблюдать за прогрессом! Подскажите, а планируется ли у вас попробовать имплементировать dalle-2? Вы единственная надежда на то, чтобы реально пощупать такую нейронку (так как оригинальный вряд ли получится пощупать у себя локально из-за размеров, плюс не факт что это в принципе будет доступно всем подряд)

Gugutse Jun 23 2022 at 12:55

Спасибо за добрые слова :) Да, мы, безусловно, будем работать с диффузионками – это будет DALL-E-2-like или Imagen-like, но что-то подобное точно.

Old_Shurik Jul 5 2022 at 13:27

Здорово! Очень похоже на картины сумасшедших. Нужно привлечь психиатров. которые специализируются на анализе когнитивных расстройств мозга по картинам больных. Можно от обратного попытаться построить корректную модель нейросети. Видно очень хорошо, что не хватает смысла в изображениях. Возможно, решение в более глубоком анализе образцов изображений. картин в описательном смысле. Сначала обучить модель на извлечении "текста из картины", т.е. обучении "чтения" картины с учителем (на более детальном описании картины человеком). А затем решение обратной задачи - по детальному описанию генерация изображения. Здесь тонкая настройка с помощью психиатра должна помочь.

tongohiti Sep 15 2022 at 00:34

Мне одному показалось, что «кошке, которая сделана из белого облака» чья-то воздушная рука пытается, эээ… почесать под хвостом?