ipasechnik May 13 at 14:40

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Medium

10 min

13K

SberDevices corporate blogСбер corporate blog3D-graphics*Machine learning*Artificial Intelligence

+28

Comments 16

goldexer May 13 at 14:49

Будем посмотреть. Пока что у нейросетей есть серьезные проблемы с отношением количества полигонов к качеству деталей раз, правильной обработкой любых выступающих частей (а полы плащей, хвосты, ручки судуков, волосы - это вообще ужас) - два, проблемы с разверткой - три и наконец иерархия чаще всего отсутствует, как таковая, или, в лучшем случае, будет... кхм, плохонькой. Сейчас глянем, что вы там наваяли и может ли это выдать хоть сколько нибудь годный результат)

SinsI May 13 at 19:05

Рекомендация: добавляйте в промпты детальные описания стиля, который хотите получить. Например: «A cartoonish and humorous model of an angry android. Bright colors, exaggerated expressions, comic-style lines and motion effects, lighthearted and funny mood».

А нельзя ли сделать Style Transfer, как для моделей генерации картинок в Stable Diffusion?

Дать пару-тройку references гораздо проще чем пытаться описать стиль словами.

sthfaceless May 15 at 08:47

Скоро будет доступна генерация по картинке, тогда вы сможете задать любой стиль картинке с той же Stable Diffusion и по ней сделать 3D модель.

pechkinkorp May 14 at 05:43

Зачем нужна авторизация через сбер айди?

Лучше бы просто ограничили скорость генерации, чем авторизацию через , по сути, банковское приложение

oulenspiegel May 19 at 11:39

SberId это не банковское приложение, это то же самое, что какой-нибудь Google Id или Facebook Id. Вы можете завести SberId, не имея счёта в банке

AlKnight May 14 at 06:09

Попробовал сейчас вашу генерацию. Генерация лиц вообще оставляет желать лучшего, топология моделей тоже нуждается в доработке. Но начало положено, удачи вам в этом направлении! Возможно будет интегрировать сервис в такие приложения как Blender или Maya?

sthfaceless May 15 at 06:05

Интеграция в приложения в виде, например, плагинов в планах, но, как вы сами заметили, качество моделей в приоритете)

AleGen May 14 at 07:33

Чото как-то плохо.

Попробовал сгенерить просто правильную геометрическую фигуру - усечённый конус с определёнными размерами для печати на 3D-принтере, промпт был примерно такой: "усечённый конус для печати на 3D-принтере со следующими размерами: ширина (диаметр) конуса у основания - 22 мм., ширина (диаметр) конуса у вершины - 16 мм., высота конуса - 46 мм.". В итоге выдал 4 варианта, из которых 3 - какая-то дичь типа ваз неправильной формы, и только один - конус, но со скруглением на вершине, и совершенно другой высотой (приблизительно - раза в 2 меньше заданной).

Сбер, несолидно (впрочем, как и всегда - к Сберу у меня уже лет 10 нет доверия - мощная показуха при качестве ниже плинтуса).

sthfaceless May 15 at 09:15

Сейчас наша модель для создания 3D объектов де факто работает по картинке, то есть ваше описание модели уже скорее всего не воспроизводится на этапе создания картинки по тексту, такая проблема есть и она общая для всех известных в мире подходов создания картинок по тексту.

Для создания точной 3D модели, соответствующей описанию детали с ее размерами, мы работаем над другим подходом в рамках упомянутого проекта генеративного проектирования.

Duxlab Jul 4 at 09:52

Многие компании ударились в ИИ, который «умеет всё». Но умеет он плохо. Часто неприемлемо плохо.

Очень туго дела идут с более узкими, точными и эффективными инструментами.
Тот же Tencent к своей сетке уже прикрутил а) генератор картинки Т-позы из обычной позы
б) определение точек суставов и прикручивание рига к гуманоидным моделям.
Да, качество там ужас, но для драфта годится, сильно облегчает работу, а это главное.

При том что есть ряд библиотек с гуманоидами, есть ряд генераторов базовых мешей человека, нет ни одной нейронки, которая бы занималась следующим:
Посмотреть на картинку и описание, сделать выводы, какие ползунки в генераторе надо крутнуть, крутнуть эти ползунки, проверить модель на перехлёсты поверхностей, разгладить перехлёсты, надуть/деформировать детали для большего сходства с картинкой (силуэт, карта глубины), сделать несколько рендеров, проверить их на вменяемость (уродливые деформации, соответствие описанию), вправить деформации.

Зачем возиться с генератором? Да затем, что там изначально есть модель с хорошей топологией, развёрткой и регулируемая. То есть итог будет гораздо более пригоден для работы. Возня с этими ползунками и базовыми подправками сжирает пару часов.

«Но есть же метахуман!» скажут многие
А метахуман — дерьмина, которая порождает исключительно унылых однообразных и неприятных кукольных симметричных статистов третьего плана. Деформеры, которые там как бы выданы, прибиты гвоздями к лимитам и симметриям, к тому же деформеры являются костями, что сильно смыливает результат. А если экспортировать и переделывать ручками, то сначала нужно уничтожить многое, что сгенерировано и открутить многое прикрученное, что нерационально. Всё на что осмелились эпики — дать делать кривые зубы генератором. А вот свёрнутый или сломанный нос уже никак. В нулевых была какая-то программка примерно такого толка, и даже там был режим «потягать вершины руками».

Как бы да, задача генерировать «каких-то там прохожих массово» закрыта. Только вот прохожих и на стоках валом. И будет ещё больше.

А задача дать автору удобную болванку, частично приближенную к эскизу/описанию даже не начиналась. Тот же Тенцент куда ближе к этому подобрался.

Kden2019 May 16 at 07:04

Где почитать про промты для моделей - ликбез так сказать.

monah62rus May 19 at 05:13

Господа разработчики, создайте уже хоть в телеге чат или группу для обсуждения вашего проекта, тема интересная но при попытке найти сообщество с поддержкой разработчиков невозможно, у нас 21 век, все 3д генеративные платформы имеют свои сообщества или чаты.

Spyman May 20 at 01:57

А есть ли вероятность, что такую штуку когда-нибудь можно будет развернуть локально (хотя-бы купив ввиде коробки)?)

THEOILMAN Jul 4 at 06:08

Ну комментатор @AleGenчертовски прав. В сущности, пока что, это ИИ Блендер, а нам, кабанам, нужен ИИ Компас 3D. Как вариант - ассистент для openscad.

Duxlab Jul 4 at 09:59

На деле нужен ассистент, который бы распознавал речь, давал поправить или ввести текст, открывал нужные окошки и вбивал указанные цифры. То есть убирал рутину. Сама генерация точного 3д не требуется, ибо и так есть программы.

Duxlab Jul 4 at 10:03

шото его глючит даже на этапе понимания начального промпта.