Как стать автором
Обновить

Сравнение различных схем квантования для LLM

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.2K
Всего голосов 9: ↑8 и ↓1+7
Комментарии5

Комментарии 5

Если у вас есть такая роскошь как 48Гб видеопамяти, берите что-то вроде 5.0bpw-h6-exl2, зачем вам Q5 в 24-ом году, он же проигрывает эксламе-2 просто во всем. Если нет необхоимости в длинном контексте, можно попробовать довести до 5.5bpw / 5.65bpw

Потому что Q5 не хуже 5.0 bpw-h6-exl2, я детальные исследования не проводил, но по ощущением EXL2 лучше в скорости, а качество ответов падает по сравнению с GGUF. Ребята с реддита пишут приблизительно тоже самое. GGUF до сих пор считается стандартном квантования, если найду время на выходных, постараюсь углубиться и обновлю бенчмарк, добавив EXL2.

Кустарный тест на 18 вопросов очевидно будет давать дикие артефакты и показывать погоду на Cатурне. Чтобы эту гипотезу подтвердить, нужно раз в пятьдесят больше. И я бы сказал если она вдруг подтвердится это окажется очень интересным результатом. Уверен что очень постаравшись я могу подобрать вопросы так, что отдельная безумная 7B модель обойдет на них GPT4.
С другой стороны - есть понятный и измеримый параметр перплексити, который у exl2 как минимум не хуже: https://oobabooga.github.io/blog/posts/gptq-awq-exl2-llamacpp/
GGUF безусловно имеет права на жизнь, если вам надо раскидывать слои между GPU и CPU, но у вас то хватает VRAM...

Очень интересная статья)

Всегда использовал q6_k gguf, вроде норм. Даже на 3050 8гб норм работает. Да и без видюхи тоже норм, если проц хороший.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории