Комментарии / Закладки / Профиль xRay / Хабр

Пользователь

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

"--cache-type-k", "q4_0",

Лучше использовать q8_0, q4 для кэша уже дает заметное влияние на качество.

Генерация начинается со скоростью 8 t/s. После генерации 1000 токенов понижается до 7t/s, при приближении к 2000 скорость становится равна 6.8 t/. Преодоление порога в 3000 токенов показывает скорость 6.6 t/s

Попробуйте ik_llama, этот форк заточен для работы на CPU, и там, помимо разных оптимизаций, реализована поддержка mla. MLA позволяет 160к контекста засунуть в 11гб без квантования kv-кэша, и даёт меньшую потерю t/s.

ik_llama может использовать существующие кванты с ключем -rtr, ничего перекачивать не нужно. Но есть и готовые R4 кванты, заточенные под CPU + 1 GPU на 24гб под 32к контекста, там же инструкция как запускать: https://huggingface.co/ubergarm/DeepSeek-R1-0528-GGUF

Для этого стоит либо использовать модели попроще, например Llama 4 Maverick. Она хоть и туповата по сравнению с DeepSeek R1 на сложных запросах, зато даёт фантастическую скорость в 30 t/s для модели в 400 миллиардов параметров.

У Maverick по Aider результат всего 15.6% против 71.4% у DeepSeek R1-0528, то есть она совсем туповата для программирования, но вполне неплоха в других сферах, например, перевода или творческого письма, поэтому модель в целом недооценена, учитывая её скорость.

А причина разницы скорости в том, что у Maverick 402B есть приличное количество общих слоев нужных на каждом шагу, поэтому параметр -ot там даёт хорошее ускорение. А, например, у Qwen3-235B, которая весит ещё меньше, нет общих экспертов и там такого внушительного эффекта не будет. У DeepSeek вроде как есть небольшое количество общий экспертов, судя по их структуре.

Сложные запросы конечно стоит обрабатывать на DeepSeek-R1-0528

Если говорить про кванты и программирование, то провели бенчмарк кванта DeepSeek R1-0528-UD-IQ1_M в Aiders Polygot Benchmark испытывающий языки C++, Go, Java, JavaScript, Python и Rust.

Без квантования: 71.4%
UD-IQ1_M: 60%
Sonnet 4 (no thinking): 56.4%
Sonnet 4 (32k thinking): 61.3%

У UD-IQ1_M вес 200гб, без квантования вес 700гб (оригинал DeepSeek в fp8, а не fp16, иначе было бы 1400гб), что позволяет даже на домашнем ПК DDR5 192гб + 24гб vram запускат на скорости 5 t/s. Таким образом динамическое квантование UD от unsloth может уменьшить вес в 3.5 раза, а качество упадет всего на 19% в плане программирования.