Как стать автором
Обновить

Большая версия ruDALL-E, или Как отличить Кандинского от Малевича

Время на прочтение13 мин
Количество просмотров60K
Всего голосов 45: ↑43 и ↓2+41
Комментарии20

Комментарии 20

Диффузионные модели дают намного меньшую степень контроля над итоговым результатом, чем DALL-E-подобные модели. Потому что если диффузная модель начала сходиться к некоторому изображению, то указать ей, что она сходится куда-то не туда и скорректировать процесс практически невозможно.
В случае же DALL-E можно:

  • Подать в качестве затравки крошечный кусочек (полоску) изображения, или даже несколько кусочков-патчей, и она будет успешно достраивать это изображение
  • Следить за процессом генерации пиксельных блоков, и если генерация свернула куда-то не туда — тут же выбрать более устраивающий вариант (поскольку на каждом этапе генерируется вероятностное распределение, и всегда есть из чего выбрать)
  • Подать результат генерации на вход самой же модели: если изображение в общем устраивает, но есть пара областей, заполненных мусором — можно указать модели перегенерировать их, не трогая остальные области
  • Если результаты генерации сохранены в качестве тензоров, за счёт работы VAE возможно бесшовно склеивать разные картинки и кусочки картинок, а также выполнять интерполяцию между двумя картинками.

В итоге управляемость и возможность получить вот именно то, что хочется, у DALL-E-моделей намного выше, и работать с ними приятнее. Диффузионные модели вызывают ощущение, будто вы пытаетесь что-то слепить из тёплого желе — как ни старайся, а получается не совсем то.
Уже как-то выкладывал тут примеры работы ruDALL-E.
Повторюсь
Лягушечки:





Разное:






Модель генерирует довольно неплохо. Жалко, что нет весов в открытом доступе.

Еще я бы упомянул ребят из midjourney, у которых тоже классные диффузионные модели:

image
Иллюстрация к роману «Пикник на обочине» Стругацких

image
cyberpunk shoe made from glass, stone, gems and neon lamps, dark background with smoke, dust, water, trending on artstations, unreal render
И, кстати, у вас хорошо работает upscale картинки из библиотеки rudalle, спасибо за него.

Рисунки интерьеров подкинули мысль, что, наверно, можно настроить сеть генерировать 3D-модели помещений с полным дизайном и мебелью.

Да, text-to-3D определенно следующий шаг в развитии :) Тут, конечно, вопрос в том, что нужны качественные и разнообразные 3D-датасеты и эксперименты, позволяющие определить, какое архитектурное решение наиболее удачно. Возможно, вам будут интересны некоторые шаги в этом направлении: Dream Fields (NeRF + CLIP), AvatarCLIP (CLIP + NeuS).

Помогите кто знает - как на своих мощностях запустить Kandinsky и Surrealist? Malevich запустил по примерам на GitHub проекта, хоть и с трудом, а вот Kandinsky даже нет намёка или кусочков кода Python.

В телеграмме автор указал на то что в свободном доступе пока нет моделей Kandinsky. Нужно подождать до конца лета.

Да, в свободном доступе модели Kandinsky действительно сейчас нет. Зато есть файнтюн Malevich (Surrealist XL) – можете попробовать погенерить в колабе (вот здесь веса на hugging face). По поводу мощностей: для Kandinsky требуется A100 (ну или можно три V100 :)

А зачем A100? Я с Малевичем спокойно балуюсь, переставив device='cpu' и fp16=False на стареньком i7 второго поколения. Просто разрезолвьте get_rudalle_model('Kandinsky', pretrained=True) или хотя бы checkpoint = torch.load или вы просто никогда не пускали свою модель на процессоре? ;)

demo API планируется как у суммаризатора ?

Да, планируется!

На первом этапе модель Kandinsky обучалась командой SberDevices на протяжении двух месяцев на платформе SberCloud ML Space, и этот процесс занял 20 352 GPU-V100 дней.

После этого командой Sber AI была выполнена вторая фаза обучения модели на новых отфильтрованных данных (7 680 GPU-A100 дней). В

@Gugutse

Еще бы вы мне, как плательщику налогов (все помним, про "национализацию" прибыльного Сбербанка из средств ФНБ, то есть из нашего кармана) и клиенту Сбербанка помогли понять, как эти баснословные траты сказываются на:

  • Лично моем качестве клиентского сервиса в банке;

  • Развитии отечественных технологий в широком смысле;

То было бы неплохо. Понятно, что Сбер сильно лучше себя ведет, чем другие банки, но это явно перпендикулярно такому аттракциону неслыханной щедрости.

То вы по сути жгете баснословные деньги на поддержку компании Nvidia и делаете весьма сложную, но вторичную работу (просто запускаете чужой готовый код на картинках, но с другими подписями, заваливая неэффективность ресурсами), что по сути только дальше закрепощает наше отставание.

Понятно, что даже освоив все бюджеты видекарту так просто не сделать, но даже в такой сиутации есть сотни и тысячи более приоритетных задач, чем генерация картинок.

Чисто из очевидных идей, если стоит задача освоить максимальное количество денег, то вместо этого можно делать и публиковать реально нужные и качественные датасеты в народнях областях ML, чтобы народ пилил свои полезные приложения.

Тут я могу только прокомментировать фразу: просто запускаете чужой готовый код на картинках, но с другими подписями, – кода оригинальной DALL-E нет в открытом доступе (деятельность OpenAI уже давно не соответствует её названию), так что код мы писали сами.

Это безусловно прекрасно и характеризует вас с позитивной стороны. Но я так и не получил ответы на свои вопросы.

Рискну чисто гипотетически предположить несколько вещей:
1) GPU уже закуплены. Т.е они уже стоят в ЦОД-ах и используются под разные задачи (у сбера много ML-проектов).
2) Они не являются 100% загруженными 24/7/365, т.е часть времени простаивают.
3) Целесообразно их загрузить хоть чем-то (ибо расходы лишь на электричество, что не так много как кажется). А если это «что-то» еще и на имидж комании работает — вообще хорошо.

С ruDALL-E — это только кажется вам, что это генериация интерсных картинок случайным людям. В дальнейшем доступ к такми моделям можно продавать, а на их основе реализовывать кучу различных сервисов для генерации логотипов, иллюстраций, постеров и прочего (за счет файн-тюнинга — весьма точно и под запросы клиентов), что прилично снизит затраты на CG-художников или упростит им работу (давая готовые идеи, шаблоны, и заготовки). Т.е применение (денежное) моделям найдется.

Классно наблюдать за прогрессом! Подскажите, а планируется ли у вас попробовать имплементировать dalle-2? Вы единственная надежда на то, чтобы реально пощупать такую нейронку (так как оригинальный вряд ли получится пощупать у себя локально из-за размеров, плюс не факт что это в принципе будет доступно всем подряд)

Спасибо за добрые слова :) Да, мы, безусловно, будем работать с диффузионками – это будет DALL-E-2-like или Imagen-like, но что-то подобное точно.

Здорово! Очень похоже на картины сумасшедших. Нужно привлечь психиатров. которые специализируются на анализе когнитивных расстройств мозга по картинам больных. Можно от обратного попытаться построить корректную модель нейросети. Видно очень хорошо, что не хватает смысла в изображениях. Возможно, решение в более глубоком анализе образцов изображений. картин в описательном смысле. Сначала обучить модель на извлечении "текста из картины", т.е. обучении "чтения" картины с учителем (на более детальном описании картины человеком). А затем решение обратной задачи - по детальному описанию генерация изображения. Здесь тонкая настройка с помощью психиатра должна помочь.

Мне одному показалось, что «кошке, которая сделана из белого облака» чья-то воздушная рука пытается, эээ… почесать под хвостом?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий