ScriptShaper1 фев в 18:36

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

Средний

4 мин

17K

Машинное обучение * Искусственный интеллектNatural Language Processing * Big Data *

Обзор

+23

Комментарии 15

Displacer 1 фев в 18:50

Если кто-то и может это портировать, то unsloth. llama.cpp то по идее не требует доработок, ничего же особо не поменялось нигде, кроме именно самой техники квантизации.

ScriptShaper 1 фев в 19:01

Да, unsloth скорее всего первые подхватят. По llama.cpp — там NVFP4 нативно пока нет, но формат не rocket science, добавят если будет спрос.

debagger 2 фев в 00:49

А обязательно NVFP4 использовать? Я так понял что QAD это просто вариант файнтюна квантов, который дает лучшие результаты.

ScriptShaper 4 фев в 07:16

Не обязательно. QAD это просто KL-дистилляция вместо CE-файнтюна. Работает с любым форматом квантизации. NVFP4 тут просто контекст, потому что у них железо под это заточено.

entze 1 фев в 19:59

Забавно, если Google для Gemma сделают.

andy_p 2 фев в 00:11

То, что интеграл на картинке подсчитан неправильно, это демонстраация того, что эта модель всё сломала ?

ScriptShaper 4 фев в 07:17

Хах, не заметил. Видимо Nano Banano тоже нужен QAD.

gliderman 2 фев в 12:42

Ждем возможности запускать локальные модели которые раньше работали на 48gb GPU на настольных картах с 16gb?

entze 2 фев в 15:49

Такая возможность и сейчас есть, но качество страдает. Вот с QAD не так сильно.

Для изображений, видео есть инструменты. Дистиллированные модели, оптимизации.

ScriptShaper 4 фев в 07:18

В теории да. 49B в FP4 это ~25GB, влезает в 2x16GB. На практике нужен inference stack который это поддерживает. Пока только на Blackwell нормально, на десктопе будет медленно.

entze 4 фев в 12:58

Mac с Unified и если все же не влезает - собирать пачки мак мини или студий с помощью Exo. Но компромисс между производительностью и доступностью большой модели.

Kwentin3 3 фев в 08:50

Если просто, то двоечника заставляют рассуждать как отличника.

ScriptShaper 4 фев в 07:18

Почти. Двоечника учат "имитировать" ход мыслей отличника, а не просто списывать ответы. CE это "пиши как в учебнике", KL это "думай как он думает".

ToniDoni 3 фев в 14:34

Интересно было бы посмотреть perfomance на агентский кодинг.

ScriptShaper 4 фев в 07:19

Вот это реально интересно. Агенты делают много шагов, ошибки накапливаются. Если QAD сохраняет распределение, а не только топ-токены, должно помочь. Но данных пока нет, все бенчмарки одношаговые.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий