
Unsloth сделали то, что еще год назад казалось невозможным — ужали модель весом 715 ГБ до 170 ГБ, почти без потерь в качестве.
Они использовали динамическую квантовку: важные слои остаются в 6–8 бит, а менее критичные ужимаются до меньшей разрядности. При этом для калибровки брали 2–3 миллиона токенов хороших данных, чтобы веса не «поехали».
В итоге получились динамические 1-бит GGUF, которые запускаются на обычном «железе» с 170 ГБ RAM. Есть даже однофайловая сборка TQ1_0 — удобно для Ollama.
Параметры по умолчанию:
--jinja
(иначе не заработает чат-шаблон)можно включать рассуждения:
thinking = True
рекомендовано
--temp 0.6 --top_p 0.95
MoE-слои лучше выгружать в RAM (
-ot ".ffn_.*_exps.=CPU"
)для длинного контекста используйте KV-квантовки (
q4_0
,q5_1
,iq4_nl
и др.)
Пример запуска:
ollama run hf.co/unsloth/DeepSeek-V3.1-GGUF:TQ1_0 --temp 0.6 --top_p 0.95 --jinja
моё мнение
Круто, что они пошли по пути умной квантовки, а не просто «урезать всё подряд». Так модель не теряет ключевые навыки.
Я думаю, что в будущем можно пойти еще дальше:
брать средние модели (32B, 70B) и ужимать их до размеров уровня ниже, сохраняя качество.
делать набор «специализированных» моделей: например, маленькая 0.5B для JSON-линтинга, 3B для загрузки документов, 9B для поиска по вебу. Вместо одной «универсальной» модели на 32B, которая делает всё, но медленно и средне.
тренировать сразу с прицелом на квантовку (quantization-aware training), чтобы качество вообще не падало при сжатии.
Еще год назад 1.5B казались игрушкой, а теперь реально можно собрать рабочий стек из кучи небольших моделей, каждая из которых делает своё дело лучше, чем один «монстр».
И да — приятно, что теперь запустить самую большую опенсорс-модель локально можно без серверной фермы.
Веса - клик (https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF)
Все полезные нейронки тут (https://umaai.site/)
Друг Опенсурса (https://t.me/tch_net)