Да, text-to-3D определенно следующий шаг в развитии :) Тут, конечно, вопрос в том, что нужны качественные и разнообразные 3D-датасеты и эксперименты, позволяющие определить, какое архитектурное решение наиболее удачно. Возможно, вам будут интересны некоторые шаги в этом направлении: Dream Fields (NeRF + CLIP), AvatarCLIP (CLIP + NeuS).
Тут я могу только прокомментировать фразу: просто запускаете чужой готовый код на картинках, но с другими подписями, – кода оригинальной DALL-E нет в открытом доступе (деятельность OpenAI уже давно не соответствует её названию), так что код мы писали сами.
Да, в свободном доступе модели Kandinsky действительно сейчас нет. Зато есть файнтюн Malevich (Surrealist XL) – можете попробовать погенерить в колабе (вот здесь веса на hugging face). По поводу мощностей: для Kandinsky требуется A100 (ну или можно три V100 :)
Спасибо за добрые слова :) Да, мы, безусловно, будем работать с диффузионками – это будет DALL-E-2-like или Imagen-like, но что-то подобное точно.
Да, планируется!
Да, text-to-3D определенно следующий шаг в развитии :) Тут, конечно, вопрос в том, что нужны качественные и разнообразные 3D-датасеты и эксперименты, позволяющие определить, какое архитектурное решение наиболее удачно. Возможно, вам будут интересны некоторые шаги в этом направлении: Dream Fields (NeRF + CLIP), AvatarCLIP (CLIP + NeuS).
Тут я могу только прокомментировать фразу: просто запускаете чужой готовый код на картинках, но с другими подписями, – кода оригинальной DALL-E нет в открытом доступе (деятельность OpenAI уже давно не соответствует её названию), так что код мы писали сами.
Да, в свободном доступе модели Kandinsky действительно сейчас нет. Зато есть файнтюн Malevich (Surrealist XL) – можете попробовать погенерить в колабе (вот здесь веса на hugging face). По поводу мощностей: для Kandinsky требуется A100 (ну или можно три V100 :)