efreelancer6 окт 2025 в 07:58

GGUF: квантизация с калибровкой (imatrix)

Средний

6 мин

5.9K

Машинное обучение * Искусственный интеллектPython *

Туториал

+12

Комментарии 9

Frank-shikhaliev 7 окт 2025 в 12:56

Спасибо за разбор

efreelancer 7 окт 2025 в 12:57

Рад, что пригодилось, сам давно хотел разобраться с этой темой.

happyworld20 7 окт 2025 в 16:42

Спасибо за статью! В среднем по времени сколько занял процесс квантования? Часа два как в статье написано? И на каком железе это делалось?

efreelancer 7 окт 2025 в 16:59

Привет! Рад, что статья понравилась.

Время генерации сильно зависит от видеокарты, от того, сколько слоёв загружено на неё, и от размера обучающего датасета. В примере, описанном мною в данной публикации, использовался RTX 4090 на 24 ГБ, в которую было загружено 10 слоёв модели.

Подготовка imatrix происходила на 500 сэмплах из датасета русской Википедии (один сэмпл - одна страница). На это ушло примерно 2 часа. Квантование GGUF, используя полученный imatrix, заняло ещё пару минут - процесс очень быстрый, долго только imatrix файл создать, но всё равно это в разы быстрее, чем обучать адаптер через LoRA, например.

happyworld20 7 окт 2025 в 17:51

Спасибо за ответ! Думал может на слабой карте можно для неё же квантировать модели, но видимо для меня это займет дни, а может недели. Тогда остаётся аренда видеокарты. Ещё раз спасибо!

efreelancer 7 окт 2025 в 19:01

Можно попробовать поэксперементировать с количеством слоёв, но в целом да, для создания imatrix чтобы было быстро нужно хорошее железо и порядочно памяти.

MisterAndry 22 окт 2025 в 14:10

спасибо за статью!
А есть ли разница какой датасет для калибровки использовать? если да, то почему именно этот датасет был выбран?

efreelancer 22 окт 2025 в 20:08

Выбор датасета влияет на то как будет вести себя квантованная модель, а для публикации взял датасет wiki лишь в качестве простого и понятного примера.

MisterAndry 24 окт 2025 в 08:54

понятно, думаю стоит в статье акцентировать внимание на этом:

Датасет должен отражать то, с чем модель будет работать на практике: форматы запросов, стиль текста, тематика, распределения токенов, длины ввода/вывода. Если калибровочный датасет сильно отличается от боевого сценария — то статистика активаций может не соответствовать, и ошибка квантирования возрастёт.
Например: если модель будет работать с диалогами на русском, но ты калибруешь на энциклопедических статьях по английскому языку — получишь “неоптимальные” параметры.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий