Pull to refresh

Comments 14

Интересно есть ли корреляция уровня деградации модели при квантировании от количества параметров модели. Например если бы модель была не 80b, а скажем 16b.

Я гонял у себя qwen 3.5 27b claude opus 4.6 distill в квантизации q4_k_m и q8. Первая даёт 60+ т/с, вторая около 14 т/с.

Фокус в том, что в задачах написания кода, поиска в нём ошибок, а так же в анализе изображений q8 показала себя заметно глупее, чем q4_k_m. Буквально. Я пока не выяснил, с чем это связано. Так что помимо самой разрядности важно чтобы сам процесс квантизации был проведён грамотно. И с этой q8 что-то пошло не так.

Гонял недавно 80m Qwen-Coder-Next (тот самый из статьи) на полном диапазоне от 1 до 8ми бит квантизации, и, субъективно, заметил, что 4-6 бит дают наилучший результат. Долго думал, почему, и, пришел к выводу, что ниже 4х бит начинается заметная деградация связей. Модель тупеет. А, выше 6ти, модель наоборот начинает видеть гораздо больше взаимосвязей, однако, ей просто "не хватает мозгов" (количества параметров) чтобы их учитывать, и, эти сигналы превращаются в шум, который мешает основной задаче.

А есть ли заметная разница между 6 и 4 битами? Coder Next 80b пробовал только в 4 и 6 битах, 8 не пробовал. И 6 бит по уровню показались такими же, как 4 бита, даже на сложных задачах, а вот производительность там падала на дно. Видимо, рантайм был староват ещё.

По качеству результата я между 4 и 6 большой разницы не заметил, а, вот, по скорости, 4 бит почему-то работало медленнее чем 6. Вероятно, это особенности рантайма. Я гонял их на вот этом с Vulkan в качестве бэкенда: https://www.techpowerup.com/gpu-specs/radeon-840m.c4385

как бы то ни было, но я полностью отказался от q4 в пользу q8 или если уж совсем все плохо то q6-q5, причем по субьективным ощущениям модели bartowski лучше моделей unsloth.

Тоже самое, распиаренные unsloth модели ведут себя ощутимо хуже, не смотря на заявленную супер квантизацию 2.0, модели же от bartowski с его стандартным imatrix, действительно ведут себя как q8.

Хорошая статья. Жаль только не помянул, что на практике не все слои модели одинаково терпимы к квантизации. Например, слои внимания либо вообще не квантуют, либо максимум до 8 бит, не меньше. В итоге Qwen3.5 9B квантованная Bartowski 2-м квантом занимает 3.5Гб вместо 2.25Гб, но зато работает:

Спасибо. Интересно было почитать.

На один вопрос - сделать заранее? - ответили в статье - модели "сообщить" о квантизации и поощрять за подходящие значения.

А если - сделать наоборот? Неквантизованную модель деквантизировать, предоставив больше значений в переменной? И "дообучить" ее, не будет ли цимеса?

Ну и остальные подходы к триз.

Давно напрашивается аналогия: сравнение мозга человека и умных птицы (те же вороны, использующие предметы). Эволюция птиц чистит их геном от "лишних" элементов. Нет возможности содержать тяжёлые веса (во всех смыслах) и многие параметры. Не полетит. Решение некоторых задач отличается от человеческих не на порядки. То есть явное, очень сильное уменьшение количество параметров и битности (хотя тут скорее ошибаюсь), без кардинальной потери в качестве, на некоторых бенчмарках :). https://habr.com/ru/articles/761814/

Нубский вопрос. Как самому делать gguf с нужным квантованием для моделей по которым ещё нет инструментов?

Какой-нибудь гайд, как самому в python это сделать и какие модули для этого нужны. Или универсальный инструмент, способный работать с любой моделью

Ссылку на гайд, название универсального готового скрипта или хотя бы несколько примеров для разных по архитектуре моделей - буду признателен. Плюс хочется разобраться "на пальцах"

Ожидал увидеть инфу про придуманные гуглом Turbo quants (оптимизация  KV-cache), которые последние несколько дней на хайпе

Статья ни о чем, опять какая-то нейрослопня. Лучше давайте ссылки на arxive статьи в самом начале повествования. Сам по себе материал бесполезен, так как нету реального кейса квантизации модели. На серьезных щах говорить про уменьшение float точности как для яслей это сильно. У вас как вы пишете H100 в ползовании была, так почему вы модельку свою не сделали на ней? Или хватило времени на 100 строк про Лондон. Где же гайды по инструментарию? Или вы так воздух взболтать на хабр заходите. Надоело уже, когда статьи воруют твое время попусту.

Интересно, можно ли использовать приведенные типы а-ля 12 бит, или по сути он будет приведен к float 16 бит ?

Sign up to leave a comment.

Articles