Обновить

Комментарии 9

Спасибо за разбор

Рад, что пригодилось, сам давно хотел разобраться с этой темой.

Спасибо за статью! В среднем по времени сколько занял процесс квантования? Часа два как в статье написано? И на каком железе это делалось?

Привет! Рад, что статья понравилась.

Время генерации сильно зависит от видеокарты, от того, сколько слоёв загружено на неё, и от размера обучающего датасета. В примере, описанном мною в данной публикации, использовался RTX 4090 на 24 ГБ, в которую было загружено 10 слоёв модели.

Подготовка imatrix происходила на 500 сэмплах из датасета русской Википедии (один сэмпл - одна страница). На это ушло примерно 2 часа. Квантование GGUF, используя полученный imatrix, заняло ещё пару минут - процесс очень быстрый, долго только imatrix файл создать, но всё равно это в разы быстрее, чем обучать адаптер через LoRA, например.

Спасибо за ответ! Думал может на слабой карте можно для неё же квантировать модели, но видимо для меня это займет дни, а может недели. Тогда остаётся аренда видеокарты. Ещё раз спасибо!

Можно попробовать поэксперементировать с количеством слоёв, но в целом да, для создания imatrix чтобы было быстро нужно хорошее железо и порядочно памяти.

спасибо за статью!
А есть ли разница какой датасет для калибровки использовать? если да, то почему именно этот датасет был выбран?

Выбор датасета влияет на то как будет вести себя квантованная модель, а для публикации взял датасет wiki лишь в качестве простого и понятного примера.

понятно, думаю стоит в статье акцентировать внимание на этом:

  • Датасет должен отражать то, с чем модель будет работать на практике: форматы запросов, стиль текста, тематика, распределения токенов, длины ввода/вывода. Если калибровочный датасет сильно отличается от боевого сценария — то статистика активаций может не соответствовать, и ошибка квантирования возрастёт.

  • Например: если модель будет работать с диалогами на русском, но ты калибруешь на энциклопедических статьях по английскому языку — получишь “неоптимальные” параметры.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации