Комментарии 15
Если кто-то и может это портировать, то unsloth. llama.cpp то по идее не требует доработок, ничего же особо не поменялось нигде, кроме именно самой техники квантизации.
Да, unsloth скорее всего первые подхватят. По llama.cpp — там NVFP4 нативно пока нет, но формат не rocket science, добавят если будет спрос.
Забавно, если Google для Gemma сделают.
То, что интеграл на картинке подсчитан неправильно, это демонстраация того, что эта модель всё сломала ?
Ждем возможности запускать локальные модели которые раньше работали на 48gb GPU на настольных картах с 16gb?
Такая возможность и сейчас есть, но качество страдает. Вот с QAD не так сильно.
Для изображений, видео есть инструменты. Дистиллированные модели, оптимизации.
В теории да. 49B в FP4 это ~25GB, влезает в 2x16GB. На практике нужен inference stack который это поддерживает. Пока только на Blackwell нормально, на десктопе будет медленно.
Если просто, то двоечника заставляют рассуждать как отличника.
Интересно было бы посмотреть perfomance на агентский кодинг.

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать