Как стать автором
Обновить

Комментарии 6

Все хорошо, только VAE это вариационный аутоэнкодер и он топологически отличается от просто
аутоэнкодера.

Да, хорошее замечание, спасибо, поправил :)

Так а выводы то какие? Что мешает генерить качественные картинки и какой потенциал? :)

Таким образом, очевидным bottleneck’ом для данной архитектуры является автоэнкодер (VAE)  если он не способен восстановить исходное изображение процедурой encode-decode с приемлемым качеством, то и DALL·E никогда не сможет сгенерить изображение хорошего качества.

С VQVAE все +/- понятно и с генерацией картинок мы уже неплохо умеем работать, а вот все самое интересное у DALL-E определенно происходит в трансформере, который должен мапить текст в кодовую книгу. И исходя из статейных кратинок, там проблема явно не в рендеринге, а в том, что семантически оно рендерит ерунду. Но анализ этого вопроса остался за бортом :(

p.s. кстати, DALL-E - это уже прошлый век. Буквально недавно группа исследователей из Китая опубликовала свою работу CogView, и заявляется, что она бьет DALL-E по метрике FID. И в отличие от скрытных ребят из OpenAI, тут всё выложили в open source, включая снапшоты и можно покрутить в руках.

Качество генерируемых картинок в DALL-E безусловно зависит и от текстового энкодера тоже, но в данном случае мы решили улучшить именно проблемные домены декодера. Вы задаете абсолютно правильные вопросы, о которых стоит задуматься, но за рамками нашей статьи, спасибо!

к сожалению, первая статья по FID куда-то пропала

оригинальная статья с описанием метрики тут

очень интересно было почитать статью, не знал, что существуют такие нейронные сети, буду изучать этот вопрос

Зарегистрируйтесь на Хабре , чтобы оставить комментарий