Комментарии 9
Спасибо за разбор
Спасибо за статью! В среднем по времени сколько занял процесс квантования? Часа два как в статье написано? И на каком железе это делалось?
Привет! Рад, что статья понравилась.
Время генерации сильно зависит от видеокарты, от того, сколько слоёв загружено на неё, и от размера обучающего датасета. В примере, описанном мною в данной публикации, использовался RTX 4090 на 24 ГБ, в которую было загружено 10 слоёв модели.
Подготовка imatrix происходила на 500 сэмплах из датасета русской Википедии (один сэмпл - одна страница). На это ушло примерно 2 часа. Квантование GGUF, используя полученный imatrix, заняло ещё пару минут - процесс очень быстрый, долго только imatrix файл создать, но всё равно это в разы быстрее, чем обучать адаптер через LoRA, например.
Спасибо за ответ! Думал может на слабой карте можно для неё же квантировать модели, но видимо для меня это займет дни, а может недели. Тогда остаётся аренда видеокарты. Ещё раз спасибо!
спасибо за статью!
А есть ли разница какой датасет для калибровки использовать? если да, то почему именно этот датасет был выбран?
Выбор датасета влияет на то как будет вести себя квантованная модель, а для публикации взял датасет wiki лишь в качестве простого и понятного примера.
понятно, думаю стоит в статье акцентировать внимание на этом:
Датасет должен отражать то, с чем модель будет работать на практике: форматы запросов, стиль текста, тематика, распределения токенов, длины ввода/вывода. Если калибровочный датасет сильно отличается от боевого сценария — то статистика активаций может не соответствовать, и ошибка квантирования возрастёт.
Например: если модель будет работать с диалогами на русском, но ты калибруешь на энциклопедических статьях по английскому языку — получишь “неоптимальные” параметры.

GGUF: квантизация с калибровкой (imatrix)