Comments 20
В случае же DALL-E можно:
- Подать в качестве затравки крошечный кусочек (полоску) изображения, или даже несколько кусочков-патчей, и она будет успешно достраивать это изображение
- Следить за процессом генерации пиксельных блоков, и если генерация свернула куда-то не туда — тут же выбрать более устраивающий вариант (поскольку на каждом этапе генерируется вероятностное распределение, и всегда есть из чего выбрать)
- Подать результат генерации на вход самой же модели: если изображение в общем устраивает, но есть пара областей, заполненных мусором — можно указать модели перегенерировать их, не трогая остальные области
- Если результаты генерации сохранены в качестве тензоров, за счёт работы VAE возможно бесшовно склеивать разные картинки и кусочки картинок, а также выполнять интерполяцию между двумя картинками.
В итоге управляемость и возможность получить вот именно то, что хочется, у DALL-E-моделей намного выше, и работать с ними приятнее. Диффузионные модели вызывают ощущение, будто вы пытаетесь что-то слепить из тёплого желе — как ни старайся, а получается не совсем то.
Уже как-то выкладывал тут примеры работы ruDALL-E.
Разное:
Еще я бы упомянул ребят из midjourney, у которых тоже классные диффузионные модели:
Иллюстрация к роману «Пикник на обочине» Стругацких
cyberpunk shoe made from glass, stone, gems and neon lamps, dark background with smoke, dust, water, trending on artstations, unreal render
Рисунки интерьеров подкинули мысль, что, наверно, можно настроить сеть генерировать 3D-модели помещений с полным дизайном и мебелью.
Да, text-to-3D определенно следующий шаг в развитии :) Тут, конечно, вопрос в том, что нужны качественные и разнообразные 3D-датасеты и эксперименты, позволяющие определить, какое архитектурное решение наиболее удачно. Возможно, вам будут интересны некоторые шаги в этом направлении: Dream Fields (NeRF + CLIP), AvatarCLIP (CLIP + NeuS).
Помогите кто знает - как на своих мощностях запустить Kandinsky и Surrealist? Malevich запустил по примерам на GitHub проекта, хоть и с трудом, а вот Kandinsky даже нет намёка или кусочков кода Python.
В телеграмме автор указал на то что в свободном доступе пока нет моделей Kandinsky. Нужно подождать до конца лета.
demo API планируется как у суммаризатора ?
На первом этапе модель Kandinsky обучалась командой SberDevices на протяжении двух месяцев на платформе SberCloud ML Space, и этот процесс занял 20 352 GPU-V100 дней.
После этого командой Sber AI была выполнена вторая фаза обучения модели на новых отфильтрованных данных (7 680 GPU-A100 дней). В
Еще бы вы мне, как плательщику налогов (все помним, про "национализацию" прибыльного Сбербанка из средств ФНБ, то есть из нашего кармана) и клиенту Сбербанка помогли понять, как эти баснословные траты сказываются на:
Лично моем качестве клиентского сервиса в банке;
Развитии отечественных технологий в широком смысле;
То было бы неплохо. Понятно, что Сбер сильно лучше себя ведет, чем другие банки, но это явно перпендикулярно такому аттракциону неслыханной щедрости.
То вы по сути жгете баснословные деньги на поддержку компании Nvidia и делаете весьма сложную, но вторичную работу (просто запускаете чужой готовый код на картинках, но с другими подписями, заваливая неэффективность ресурсами), что по сути только дальше закрепощает наше отставание.
Понятно, что даже освоив все бюджеты видекарту так просто не сделать, но даже в такой сиутации есть сотни и тысячи более приоритетных задач, чем генерация картинок.
Чисто из очевидных идей, если стоит задача освоить максимальное количество денег, то вместо этого можно делать и публиковать реально нужные и качественные датасеты в народнях областях ML, чтобы народ пилил свои полезные приложения.
Тут я могу только прокомментировать фразу: просто запускаете чужой готовый код на картинках, но с другими подписями, – кода оригинальной DALL-E нет в открытом доступе (деятельность OpenAI уже давно не соответствует её названию), так что код мы писали сами.
Это безусловно прекрасно и характеризует вас с позитивной стороны. Но я так и не получил ответы на свои вопросы.
1) GPU уже закуплены. Т.е они уже стоят в ЦОД-ах и используются под разные задачи (у сбера много ML-проектов).
2) Они не являются 100% загруженными 24/7/365, т.е часть времени простаивают.
3) Целесообразно их загрузить хоть чем-то (ибо расходы лишь на электричество, что не так много как кажется). А если это «что-то» еще и на имидж комании работает — вообще хорошо.
С ruDALL-E — это только кажется вам, что это генериация интерсных картинок случайным людям. В дальнейшем доступ к такми моделям можно продавать, а на их основе реализовывать кучу различных сервисов для генерации логотипов, иллюстраций, постеров и прочего (за счет файн-тюнинга — весьма точно и под запросы клиентов), что прилично снизит затраты на CG-художников или упростит им работу (давая готовые идеи, шаблоны, и заготовки). Т.е применение (денежное) моделям найдется.
Оно пыталось)
Классно наблюдать за прогрессом! Подскажите, а планируется ли у вас попробовать имплементировать dalle-2? Вы единственная надежда на то, чтобы реально пощупать такую нейронку (так как оригинальный вряд ли получится пощупать у себя локально из-за размеров, плюс не факт что это в принципе будет доступно всем подряд)
Здорово! Очень похоже на картины сумасшедших. Нужно привлечь психиатров. которые специализируются на анализе когнитивных расстройств мозга по картинам больных. Можно от обратного попытаться построить корректную модель нейросети. Видно очень хорошо, что не хватает смысла в изображениях. Возможно, решение в более глубоком анализе образцов изображений. картин в описательном смысле. Сначала обучить модель на извлечении "текста из картины", т.е. обучении "чтения" картины с учителем (на более детальном описании картины человеком). А затем решение обратной задачи - по детальному описанию генерация изображения. Здесь тонкая настройка с помощью психиатра должна помочь.
Большая версия ruDALL-E, или Как отличить Кандинского от Малевича