Обновить

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели14K
Всего голосов 19: ↑19 и ↓0+25
Комментарии15

Комментарии 15

Если кто-то и может это портировать, то unsloth. llama.cpp то по идее не требует доработок, ничего же особо не поменялось нигде, кроме именно самой техники квантизации.

Да, unsloth скорее всего первые подхватят. По llama.cpp — там NVFP4 нативно пока нет, но формат не rocket science, добавят если будет спрос.

А обязательно NVFP4 использовать? Я так понял что QAD это просто вариант файнтюна квантов, который дает лучшие результаты.

Не обязательно. QAD это просто KL-дистилляция вместо CE-файнтюна. Работает с любым форматом квантизации. NVFP4 тут просто контекст, потому что у них железо под это заточено.

Забавно, если Google для Gemma сделают.

То, что интеграл на картинке подсчитан неправильно, это демонстраация того, что эта модель всё сломала ?

Хах, не заметил. Видимо Nano Banano тоже нужен QAD.

Ждем возможности запускать локальные модели которые раньше работали на 48gb GPU на настольных картах с 16gb?

Такая возможность и сейчас есть, но качество страдает. Вот с QAD не так сильно.

Для изображений, видео есть инструменты. Дистиллированные модели, оптимизации.

В теории да. 49B в FP4 это ~25GB, влезает в 2x16GB. На практике нужен inference stack который это поддерживает. Пока только на Blackwell нормально, на десктопе будет медленно.

Mac с Unified и если все же не влезает - собирать пачки мак мини или студий с помощью Exo. Но компромисс между производительностью и доступностью большой модели.

Если просто, то двоечника заставляют рассуждать как отличника.

Почти. Двоечника учат "имитировать" ход мыслей отличника, а не просто списывать ответы. CE это "пиши как в учебнике", KL это "думай как он думает".

Интересно было бы посмотреть perfomance на агентский кодинг.

Вот это реально интересно. Агенты делают много шагов, ошибки накапливаются. Если QAD сохраняет распределение, а не только топ-токены, должно помочь. Но данных пока нет, все бенчмарки одношаговые.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации