Gugutse 14 июн 2022 в 16:03

Большая версия ruDALL-E, или Как отличить Кандинского от Малевича

13 мин

60K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Искусственный интеллект

+41

Комментарии 20

Alexey2005 14 июн 2022 в 18:01

Диффузионные модели дают намного меньшую степень контроля над итоговым результатом, чем DALL-E-подобные модели. Потому что если диффузная модель начала сходиться к некоторому изображению, то указать ей, что она сходится куда-то не туда и скорректировать процесс практически невозможно.
В случае же DALL-E можно:

Подать в качестве затравки крошечный кусочек (полоску) изображения, или даже несколько кусочков-патчей, и она будет успешно достраивать это изображение
Следить за процессом генерации пиксельных блоков, и если генерация свернула куда-то не туда — тут же выбрать более устраивающий вариант (поскольку на каждом этапе генерируется вероятностное распределение, и всегда есть из чего выбрать)
Подать результат генерации на вход самой же модели: если изображение в общем устраивает, но есть пара областей, заполненных мусором — можно указать модели перегенерировать их, не трогая остальные области
Если результаты генерации сохранены в качестве тензоров, за счёт работы VAE возможно бесшовно склеивать разные картинки и кусочки картинок, а также выполнять интерполяцию между двумя картинками.

В итоге управляемость и возможность получить вот именно то, что хочется, у DALL-E-моделей намного выше, и работать с ними приятнее. Диффузионные модели вызывают ощущение, будто вы пытаетесь что-то слепить из тёплого желе — как ни старайся, а получается не совсем то.
Уже как-то выкладывал тут примеры работы ruDALL-E.

Повторюсь

Лягушечки:

Разное:

averkij 14 июн 2022 в 20:24

Модель генерирует довольно неплохо. Жалко, что нет весов в открытом доступе.

Еще я бы упомянул ребят из midjourney, у которых тоже классные диффузионные модели:

Иллюстрация к роману «Пикник на обочине» Стругацких

cyberpunk shoe made from glass, stone, gems and neon lamps, dark background with smoke, dust, water, trending on artstations, unreal render

averkij 14 июн 2022 в 20:37

И, кстати, у вас хорошо работает upscale картинки из библиотеки rudalle, спасибо за него.

Vasiliy_S 15 июн 2022 в 07:39

Рисунки интерьеров подкинули мысль, что, наверно, можно настроить сеть генерировать 3D-модели помещений с полным дизайном и мебелью.

Gugutse 17 июн 2022 в 13:48

Да, text-to-3D определенно следующий шаг в развитии :) Тут, конечно, вопрос в том, что нужны качественные и разнообразные 3D-датасеты и эксперименты, позволяющие определить, какое архитектурное решение наиболее удачно. Возможно, вам будут интересны некоторые шаги в этом направлении: Dream Fields (NeRF + CLIP), AvatarCLIP (CLIP + NeuS).

vasilisc 15 июн 2022 в 09:10

Помогите кто знает - как на своих мощностях запустить Kandinsky и Surrealist? Malevich запустил по примерам на GitHub проекта, хоть и с трудом, а вот Kandinsky даже нет намёка или кусочков кода Python.

vasilisc 15 июн 2022 в 14:59

В телеграмме автор указал на то что в свободном доступе пока нет моделей Kandinsky. Нужно подождать до конца лета.

Gugutse 17 июн 2022 в 12:33

Да, в свободном доступе модели Kandinsky действительно сейчас нет. Зато есть файнтюн Malevich (Surrealist XL) – можете попробовать погенерить в колабе (вот здесь веса на hugging face). По поводу мощностей: для Kandinsky требуется A100 (ну или можно три V100 :)

mrxak 22 июн 2022 в 21:04

А зачем A100? Я с Малевичем спокойно балуюсь, переставив device='cpu' и fp16=False на стареньком i7 второго поколения. Просто разрезолвьте get_rudalle_model('Kandinsky', pretrained=True) или хотя бы checkpoint = torch.load или вы просто никогда не пускали свою модель на процессоре? ;)

dimnsk 15 июн 2022 в 18:21

demo API планируется как у суммаризатора ?

Gugutse 23 июн 2022 в 12:50

Да, планируется!

snakers4 17 июн 2022 в 10:43

На первом этапе модель Kandinsky обучалась командой SberDevices на протяжении двух месяцев на платформе SberCloud ML Space, и этот процесс занял 20 352 GPU-V100 дней.
После этого командой Sber AI была выполнена вторая фаза обучения модели на новых отфильтрованных данных (7 680 GPU-A100 дней). В

@Gugutse

Еще бы вы мне, как плательщику налогов (все помним, про "национализацию" прибыльного Сбербанка из средств ФНБ, то есть из нашего кармана) и клиенту Сбербанка помогли понять, как эти баснословные траты сказываются на:

Лично моем качестве клиентского сервиса в банке;
Развитии отечественных технологий в широком смысле;

То было бы неплохо. Понятно, что Сбер сильно лучше себя ведет, чем другие банки, но это явно перпендикулярно такому аттракциону неслыханной щедрости.

То вы по сути жгете баснословные деньги на поддержку компании Nvidia и делаете весьма сложную, но вторичную работу (просто запускаете чужой готовый код на картинках, но с другими подписями, заваливая неэффективность ресурсами), что по сути только дальше закрепощает наше отставание.

Понятно, что даже освоив все бюджеты видекарту так просто не сделать, но даже в такой сиутации есть сотни и тысячи более приоритетных задач, чем генерация картинок.

Чисто из очевидных идей, если стоит задача освоить максимальное количество денег, то вместо этого можно делать и публиковать реально нужные и качественные датасеты в народнях областях ML, чтобы народ пилил свои полезные приложения.

-1

Gugutse 17 июн 2022 в 13:03

Тут я могу только прокомментировать фразу: просто запускаете чужой готовый код на картинках, но с другими подписями, – кода оригинальной DALL-E нет в открытом доступе (деятельность OpenAI уже давно не соответствует её названию), так что код мы писали сами.

snakers4 17 июн 2022 в 13:09

Это безусловно прекрасно и характеризует вас с позитивной стороны. Но я так и не получил ответы на свои вопросы.

-2

logran 17 июн 2022 в 19:08

Рискну чисто гипотетически предположить несколько вещей:
1) GPU уже закуплены. Т.е они уже стоят в ЦОД-ах и используются под разные задачи (у сбера много ML-проектов).
2) Они не являются 100% загруженными 24/7/365, т.е часть времени простаивают.
3) Целесообразно их загрузить хоть чем-то (ибо расходы лишь на электричество, что не так много как кажется). А если это «что-то» еще и на имидж комании работает — вообще хорошо.

С ruDALL-E — это только кажется вам, что это генериация интерсных картинок случайным людям. В дальнейшем доступ к такми моделям можно продавать, а на их основе реализовывать кучу различных сервисов для генерации логотипов, иллюстраций, постеров и прочего (за счет файн-тюнинга — весьма точно и под запросы клиентов), что прилично снизит затраты на CG-художников или упростит им работу (давая готовые идеи, шаблоны, и заготовки). Т.е применение (денежное) моделям найдется.

EvilFox 18 июн 2022 в 22:24

Оно пыталось)

FDosha 23 июн 2022 в 12:51

Классно наблюдать за прогрессом! Подскажите, а планируется ли у вас попробовать имплементировать dalle-2? Вы единственная надежда на то, чтобы реально пощупать такую нейронку (так как оригинальный вряд ли получится пощупать у себя локально из-за размеров, плюс не факт что это в принципе будет доступно всем подряд)

Gugutse 23 июн 2022 в 12:55

Спасибо за добрые слова :) Да, мы, безусловно, будем работать с диффузионками – это будет DALL-E-2-like или Imagen-like, но что-то подобное точно.

Old_Shurik 5 июл 2022 в 13:27

Здорово! Очень похоже на картины сумасшедших. Нужно привлечь психиатров. которые специализируются на анализе когнитивных расстройств мозга по картинам больных. Можно от обратного попытаться построить корректную модель нейросети. Видно очень хорошо, что не хватает смысла в изображениях. Возможно, решение в более глубоком анализе образцов изображений. картин в описательном смысле. Сначала обучить модель на извлечении "текста из картины", т.е. обучении "чтения" картины с учителем (на более детальном описании картины человеком). А затем решение обратной задачи - по детальному описанию генерация изображения. Здесь тонкая настройка с помощью психиатра должна помочь.

tongohiti 15 сен 2022 в 00:34

Мне одному показалось, что «кошке, которая сделана из белого облака» чья-то воздушная рука пытается, эээ… почесать под хвостом?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий