python_leader Mar 26 at 14:57

Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Medium

18 min

19K

Artificial IntelligenceMachine learning * Natural Language Processing *

Review

Translation

+25

Comments 14

fire64 Mar 26 at 15:39

Интересно есть ли корреляция уровня деградации модели при квантировании от количества параметров модели. Например если бы модель была не 80b, а скажем 16b.

VBDUnit Mar 26 at 17:43

Я гонял у себя qwen 3.5 27b claude opus 4.6 distill в квантизации q4_k_m и q8. Первая даёт 60+ т/с, вторая около 14 т/с.

Фокус в том, что в задачах написания кода, поиска в нём ошибок, а так же в анализе изображений q8 показала себя заметно глупее, чем q4_k_m. Буквально. Я пока не выяснил, с чем это связано. Так что помимо самой разрядности важно чтобы сам процесс квантизации был проведён грамотно. И с этой q8 что-то пошло не так.

dorne Mar 27 at 05:00

Гонял недавно 80m Qwen-Coder-Next (тот самый из статьи) на полном диапазоне от 1 до 8ми бит квантизации, и, субъективно, заметил, что 4-6 бит дают наилучший результат. Долго думал, почему, и, пришел к выводу, что ниже 4х бит начинается заметная деградация связей. Модель тупеет. А, выше 6ти, модель наоборот начинает видеть гораздо больше взаимосвязей, однако, ей просто "не хватает мозгов" (количества параметров) чтобы их учитывать, и, эти сигналы превращаются в шум, который мешает основной задаче.

VBDUnit Mar 27 at 10:45

А есть ли заметная разница между 6 и 4 битами? Coder Next 80b пробовал только в 4 и 6 битах, 8 не пробовал. И 6 бит по уровню показались такими же, как 4 бита, даже на сложных задачах, а вот производительность там падала на дно. Видимо, рантайм был староват ещё.

dorne Mar 27 at 14:36

По качеству результата я между 4 и 6 большой разницы не заметил, а, вот, по скорости, 4 бит почему-то работало медленнее чем 6. Вероятно, это особенности рантайма. Я гонял их на вот этом с Vulkan в качестве бэкенда: https://www.techpowerup.com/gpu-specs/radeon-840m.c4385

zbot Mar 26 at 16:13

как бы то ни было, но я полностью отказался от q4 в пользу q8 или если уж совсем все плохо то q6-q5, причем по субьективным ощущениям модели bartowski лучше моделей unsloth.

rikert Mar 26 at 19:18

Тоже самое, распиаренные unsloth модели ведут себя ощутимо хуже, не смотря на заявленную супер квантизацию 2.0, модели же от bartowski с его стандартным imatrix, действительно ведут себя как q8.

Politura Mar 26 at 18:52

Хорошая статья. Жаль только не помянул, что на практике не все слои модели одинаково терпимы к квантизации. Например, слои внимания либо вообще не квантуют, либо максимум до 8 бит, не меньше. В итоге Qwen3.5 9B квантованная Bartowski 2-м квантом занимает 3.5Гб вместо 2.25Гб, но зато работает:

bjl Mar 26 at 19:31

Спасибо. Интересно было почитать.

На один вопрос - сделать заранее? - ответили в статье - модели "сообщить" о квантизации и поощрять за подходящие значения.

А если - сделать наоборот? Неквантизованную модель деквантизировать, предоставив больше значений в переменной? И "дообучить" ее, не будет ли цимеса?

Ну и остальные подходы к триз.

cheon Mar 27 at 04:23

Давно напрашивается аналогия: сравнение мозга человека и умных птицы (те же вороны, использующие предметы). Эволюция птиц чистит их геном от "лишних" элементов. Нет возможности содержать тяжёлые веса (во всех смыслах) и многие параметры. Не полетит. Решение некоторых задач отличается от человеческих не на порядки. То есть явное, очень сильное уменьшение количество параметров и битности (хотя тут скорее ошибаюсь), без кардинальной потери в качестве, на некоторых бенчмарках :). https://habr.com/ru/articles/761814/

Sabin Mar 27 at 12:12

Нубский вопрос. Как самому делать gguf с нужным квантованием для моделей по которым ещё нет инструментов?

Какой-нибудь гайд, как самому в python это сделать и какие модули для этого нужны. Или универсальный инструмент, способный работать с любой моделью

Ссылку на гайд, название универсального готового скрипта или хотя бы несколько примеров для разных по архитектуре моделей - буду признателен. Плюс хочется разобраться "на пальцах"

koutsenko Mar 27 at 14:32

Ожидал увидеть инфу про придуманные гуглом Turbo quants (оптимизация KV-cache), которые последние несколько дней на хайпе

Andreas_Fogel Mar 29 at 06:14

Статья ни о чем, опять какая-то нейрослопня. Лучше давайте ссылки на arxive статьи в самом начале повествования. Сам по себе материал бесполезен, так как нету реального кейса квантизации модели. На серьезных щах говорить про уменьшение float точности как для яслей это сильно. У вас как вы пишете H100 в ползовании была, так почему вы модельку свою не сделали на ней? Или хватило времени на 100 строк про Лондон. Где же гайды по инструментарию? Или вы так воздух взболтать на хабр заходите. Надоело уже, когда статьи воруют твое время попусту.

FlyGst Mar 29 at 18:02

Интересно, можно ли использовать приведенные типы а-ля 12 бит, или по сути он будет приведен к float 16 бит ?