Комментарии / Профиль bar

Кириллов Иван@bar_bar

Пользователь

bar_bar 17 ноя 2025 в 14:42

Модель K-VAE представляет собой токенизатор для генеративных моделей. И, несмотря на то, что VAE обучаются восстановлению изображений/видео, цель -- улучшить обучение и инференс итоговой диффузионной модели, что не может быть обеспечено только высоким качеством реконструкций. Так что всегда больший интерес представляют значения генеративной модели обученной поверх латентов от того или иного токенизатора. Тем не менее, результаты на тех же датасетах, что и в посте (обратите внимание на ссылки под таблицами по которым можно их скачать!) для simplevae получаются следующие:

ImageNet-256 (valid): PSNR 30.22 / SSIM 0.88 / LPIPS 0.053 / rFID 1.52
DIV2K: PSNR 33.12 / SSIM 0.91 / LPIPS 0.049