Обновить
14
0
Дарья Бакшандаева@Gugutse

Lead Data Scientist

Отправить сообщение

Спасибо за добрые слова :) Да, мы, безусловно, будем работать с диффузионками – это будет DALL-E-2-like или Imagen-like, но что-то подобное точно.

Да, text-to-3D определенно следующий шаг в развитии :) Тут, конечно, вопрос в том, что нужны качественные и разнообразные 3D-датасеты и эксперименты, позволяющие определить, какое архитектурное решение наиболее удачно. Возможно, вам будут интересны некоторые шаги в этом направлении: Dream Fields (NeRF + CLIP), AvatarCLIP (CLIP + NeuS).

Тут я могу только прокомментировать фразу: просто запускаете чужой готовый код на картинках, но с другими подписями, – кода оригинальной DALL-E нет в открытом доступе (деятельность OpenAI уже давно не соответствует её названию), так что код мы писали сами.

Да, в свободном доступе модели Kandinsky действительно сейчас нет. Зато есть файнтюн Malevich (Surrealist XL) – можете попробовать погенерить в колабе (вот здесь веса на hugging face). По поводу мощностей: для Kandinsky требуется A100 (ну или можно три V100 :)

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность