Модель K-VAE представляет собой токенизатор для генеративных моделей. И, несмотря на то, что VAE обучаются восстановлению изображений/видео, цель -- улучшить обучение и инференс итоговой диффузионной модели, что не может быть обеспечено только высоким качеством реконструкций. Так что всегда больший интерес представляют значения генеративной модели обученной поверх латентов от того или иного токенизатора. Тем не менее, результаты на тех же датасетах, что и в посте (обратите внимание на ссылки под таблицами по которым можно их скачать!) для simplevae получаются следующие:
Модель K-VAE представляет собой токенизатор для генеративных моделей. И, несмотря на то, что VAE обучаются восстановлению изображений/видео, цель -- улучшить обучение и инференс итоговой диффузионной модели, что не может быть обеспечено только высоким качеством реконструкций. Так что всегда больший интерес представляют значения генеративной модели обученной поверх латентов от того или иного токенизатора. Тем не менее, результаты на тех же датасетах, что и в посте (обратите внимание на ссылки под таблицами по которым можно их скачать!) для simplevae получаются следующие:
ImageNet-256 (valid): PSNR 30.22 / SSIM 0.88 / LPIPS 0.053 / rFID 1.52
DIV2K: PSNR 33.12 / SSIM 0.91 / LPIPS 0.049