Обновить
1
0
Кириллов Иван@bar_bar

Пользователь

Отправить сообщение

Модель K-VAE представляет собой токенизатор для генеративных моделей. И, несмотря на то, что VAE обучаются восстановлению изображений/видео, цель -- улучшить обучение и инференс итоговой диффузионной модели, что не может быть обеспечено только высоким качеством реконструкций. Так что всегда больший интерес представляют значения генеративной модели обученной поверх латентов от того или иного токенизатора. Тем не менее, результаты на тех же датасетах, что и в посте (обратите внимание на ссылки под таблицами по которым можно их скачать!) для simplevae получаются следующие:

  • ImageNet-256 (valid): PSNR 30.22 / SSIM 0.88 / LPIPS 0.053 / rFID 1.52

  • DIV2K: PSNR 33.12 / SSIM 0.91 / LPIPS 0.049

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность