Motoroller_love Mar 4 2024 at 14:15

Сравнение различных схем квантования для LLM

Easy

4 min

19K

Python*Programming*Machine learning*Natural Language Processing*

Tutorial

✏️ Technotext 2023

Comments 5

Aniro Mar 4 2024 at 14:51

Если у вас есть такая роскошь как 48Гб видеопамяти, берите что-то вроде 5.0bpw-h6-exl2, зачем вам Q5 в 24-ом году, он же проигрывает эксламе-2 просто во всем. Если нет необхоимости в длинном контексте, можно попробовать довести до 5.5bpw / 5.65bpw

Motoroller_love Mar 4 2024 at 17:09

Потому что Q5 не хуже 5.0 bpw-h6-exl2, я детальные исследования не проводил, но по ощущением EXL2 лучше в скорости, а качество ответов падает по сравнению с GGUF. Ребята с реддита пишут приблизительно тоже самое. GGUF до сих пор считается стандартном квантования, если найду время на выходных, постараюсь углубиться и обновлю бенчмарк, добавив EXL2.

Aniro Mar 4 2024 at 18:20

Кустарный тест на 18 вопросов очевидно будет давать дикие артефакты и показывать погоду на Cатурне. Чтобы эту гипотезу подтвердить, нужно раз в пятьдесят больше. И я бы сказал если она вдруг подтвердится это окажется очень интересным результатом. Уверен что очень постаравшись я могу подобрать вопросы так, что отдельная безумная 7B модель обойдет на них GPT4.
С другой стороны - есть понятный и измеримый параметр перплексити, который у exl2 как минимум не хуже: https://oobabooga.github.io/blog/posts/gptq-awq-exl2-llamacpp/
GGUF безусловно имеет права на жизнь, если вам надо раскидывать слои между GPU и CPU, но у вас то хватает VRAM...

Anton_Kazantsev Mar 5 2024 at 04:15

Очень интересная статья)

man4j Mar 5 2024 at 18:09

Всегда использовал q6_k gguf, вроде норм. Даже на 3050 8гб норм работает. Да и без видюхи тоже норм, если проц хороший.