Banakhovich Jun 9 at 14:21

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

18 min

32K

Artificial Intelligence

From sandbox

+69

114

Comments 114

MxMaks Jun 9 at 15:26

А если установить 2 GPU 3090 или 3 GPU 3090 ?

Banakhovich Jun 9 at 15:47

У меня столько нет. Предположительно можно выгрузить туда ещё часть слоёв. И получить прирост производительности.

Shannon Jun 10 at 06:17

"--cache-type-k", "q4_0",

Лучше использовать q8_0, q4 для кэша уже дает заметное влияние на качество.

Генерация начинается со скоростью 8 t/s. После генерации 1000 токенов понижается до 7t/s, при приближении к 2000 скорость становится равна 6.8 t/. Преодоление порога в 3000 токенов показывает скорость 6.6 t/s

Попробуйте ik_llama, этот форк заточен для работы на CPU, и там, помимо разных оптимизаций, реализована поддержка mla. MLA позволяет 160к контекста засунуть в 11гб без квантования kv-кэша, и даёт меньшую потерю t/s.

ik_llama может использовать существующие кванты с ключем -rtr, ничего перекачивать не нужно. Но есть и готовые R4 кванты, заточенные под CPU + 1 GPU на 24гб под 32к контекста, там же инструкция как запускать: https://huggingface.co/ubergarm/DeepSeek-R1-0528-GGUF

Для этого стоит либо использовать модели попроще, например Llama 4 Maverick. Она хоть и туповата по сравнению с DeepSeek R1 на сложных запросах, зато даёт фантастическую скорость в 30 t/s для модели в 400 миллиардов параметров.

У Maverick по Aider результат всего 15.6% против 71.4% у DeepSeek R1-0528, то есть она совсем туповата для программирования, но вполне неплоха в других сферах, например, перевода или творческого письма, поэтому модель в целом недооценена, учитывая её скорость.

А причина разницы скорости в том, что у Maverick 402B есть приличное количество общих слоев нужных на каждом шагу, поэтому параметр -ot там даёт хорошее ускорение. А, например, у Qwen3-235B, которая весит ещё меньше, нет общих экспертов и там такого внушительного эффекта не будет. У DeepSeek вроде как есть небольшое количество общий экспертов, судя по их структуре.

Сложные запросы конечно стоит обрабатывать на DeepSeek-R1-0528

Если говорить про кванты и программирование, то провели бенчмарк кванта DeepSeek R1-0528-UD-IQ1_M в Aiders Polygot Benchmark испытывающий языки C++, Go, Java, JavaScript, Python и Rust.

Без квантования: 71.4%
UD-IQ1_M: 60%
Sonnet 4 (no thinking): 56.4%
Sonnet 4 (32k thinking): 61.3%

У UD-IQ1_M вес 200гб, без квантования вес 700гб (оригинал DeepSeek в fp8, а не fp16, иначе было бы 1400гб), что позволяет даже на домашнем ПК DDR5 192гб + 24гб vram запускат на скорости 5 t/s. Таким образом динамическое квантование UD от unsloth может уменьшить вес в 3.5 раза, а качество упадет всего на 19% в плане программирования.

Banakhovich Jun 10 at 06:55

Спасибо. я смотерл в сторону ik-llama, но решил сначала попробовать классику как отправную точку. График красивый и скорости совсем другие но это надо учитывать что тестирование происходило на процессоре который на два поколения свежее того что у меня, и память скорее всего в два раза быстрее (DDR5). Maverick 402B шикарная модель для многих вещей, она даёт быстрые и достаточно хорошие ответы, но вот в коде очень ленится. если надо чтото быстро сделать поправить проанализировать то Maverick 402B хорош.

riv9231 Jun 10 at 14:08

Я скоро повторю, у меня и эпик есть такой же примерно и 2 x RTX3090, но тоже только 512GB RAM к сожалению. Нужны 128ГБ модули, но для такие процессоров этот объем памяти выглядит избыточным. Скорости генерации намного выше тех, что я ожидал. Я думал будет 0.5-1 t/s. Ещё интересно было бы видеть задержку перед первым токеном для случаев чистого CPU и CPU + GPU.

Какая же у вас отличная статья! О таких статьях давно соскучился habr.

Banakhovich Jun 10 at 14:17

Если подскажете как корректно померить скорость первого токена. она ведь зависит от длинны промпта или я ошибаюсь? вот к примеру промпт из почти 5000 тоекнов обрабатывается со скоростью 22t/s на модели с квантованием 2. Это я сейчас тесты делаю к следующей статье.

Prompt- Tokens: 4887- Time: 216186.398 ms- Speed: 22.6 t/s

maisvendoo Jun 9 at 15:33

И будет такая улитка

SlavikF Jun 9 at 16:38

DeepSeek-R1-0528 или, если не нужны рассуждения, на DeepSeek-V3-0324

Да, скорость генерации токенов примерно одинакова. Только вот для R1 надо ждать минут 10 пока она "думает", а V3 отвечает сразу и неплохо.

"--prio", "3"

Интересно, зачем этот флаг? Бывает на сервере запущено ещё пара сервисов, а запуск инференции с этим параметром "душит" всё остальное на сервере, при этом скорость генерации практически не увеличивается.

Мой опыт:

Моя система:

Intel Xeon Gold 5218 (16 ядер, 32 threads),
6 каналов памяти * 64GB DDR4-2666
RTX 4090D 48GB VRAM (китайский мод)

Использую две модели:

DeepSeek-V3-0324-UD-Q2_K_XL (250GB), 6.3 tokens / sec
Qwen3-235B-A22B-128K-UD-Q4_K_XL (125GB), 7.7 tokens / sec

Классная фишка у моделей Qwen3 - модель можно запустить один раз, а уже для каждого запроса решать - нужен простой ответ быстро? или нужно думать (thinking) долго?

Сейчас вот удалось на Ebay "словить" вариант компьютера с Intel Xeon W5-3425 всего за $1000. Правда память надо будет докупать. Надеюсь будет значительно быстрей, потому что у этих Xeon добавили технологию AMX, которая ускоряет инференцию, и есть 8 каналов DDR5-4800 памяти. DDR5 память правда раза в 3-4 дороже чем DDR4.

Banakhovich Jun 9 at 16:55

Субъективно мне показалось что последняя R1 с рассуждениями сильно прибавила. И выдаёт решения лучше V3.
Про приоритеты, у меня этот сервер исключительно для LLM и ComfyUI но они работают по очереди. я данный параметр брал как рекомендуемый от Unsloth.
Qwen3-235B-A22B тоже хорошая но по моему уступает R1/V3 То что можно отключить размышления очень круто с этим не поспоришь.
Не было экспериментов с выгрузкой дополнительных слоёв на GPU? Кажется что 48GB должны позволить это сделать.

SlavikF Jun 9 at 17:01

Да, вот эта скорость выше - это с частичной выгрузкой слоёв. Вот мои параметры:

--ctx-size 16384

--cache-type-k q8_0 --cache-type-v q8_0

--flash-attn

--threads 16

--n-gpu-layers 999

--override-tensor '([3-8]+).ffn_.*_exps.=CPU'

Выгрузка слоёв на GPU делает скорость чуть быстрее, но не сильно. GPU очень круто ускоряет процессинг промпта, и работу с KV cache. Сама инференция по большей части упирается в RAM.

Banakhovich Jun 9 at 17:05

У меня просто почти в два раза скорость выросла с выгрузки слова на gpu. А сколько памяти используется на gpu при таких настройках?

SlavikF Jun 9 at 17:09

Тут надо разобраться - это выгрузка слоёв на GPU ускоряет?

Потому что llama.cpp в первую очередь выгружает на GPU работу KV cache и обработку промпта. В этом случае даже если сами слои вообще не выгружать на GPU - уже может быть раза в два быстрее.

У меня используется где-то 43GB VRAM.

Я сильно много не экспериментировал, но думаю, что для моделей размером 120-350 ГБ особой разницы в скорости между 24GB и 48GB VRAM не будет. А вот разница между нет GPU и есть 24GB VRAM - большая.

Shannon Jun 10 at 09:00

С недавних пор llama.cpp позволяет выгружать на GPU не целые слои, а их части. Например, для MoE моделей на каждом шагу, допустим, нужны лишь 5 слоев из 64, на каждом новом шагу эти 5 слоев разные. Если выгрузить 10 слоев на GPU, то шанс, что на каждом шагу вычисления попадут на GPU малы.

Теперь есть параметр -ot или --override-tensors. Этим параметром можно разбить слои на тензоры внимания attn и массивные тензоров ffn.
Если тензоры внимания вынести на GPU, для этого нужно не так много vram, то 64 слоев из 64 в виде тензоров внимания будут считаться на GPU на каждом шагу, что и дает ускорение.

Если памяти хватает, то и отдельные ffn можно выгрузить на GPU дополнительно. Например, -ngl 99 -ot "blk.([0-9]|1[0-3]).ffn.=CUDA0" -ot exps=CPU выгрузит все тензоры внимания на GPU, после этого тензоры ffn слоев с 0 по 13 выгрузит на первую gpu CUDA0, а остальное отправит на CPU.

Vplusplus Jun 9 at 23:54

Подскажите, как делать переключение в Qwen3, чтобы не думать, а сразу выдавать результат?

SlavikF Jun 10 at 00:00

Надо промпт начинать с /no_think

Тогда отвечает сразу. Я использую OpenWebUI, - там можно этот "/no_think" добавить в список промптов и тогда его можно использовать "в один клик"

Advisory Jun 10 at 03:14

RTX 4090D 48GB VRAM (китайский мод)

Где брали? Давно?

SlavikF Jun 10 at 03:15

вот тут брал в феврале этого года:

https://www.c2-computer.com/products/new-parallel-nvidia-rtx-4090d-48gb-gddr6-256-bit-gpu-blower-edition

У них на сайте есть и другие видюхи.

Advisory Jun 10 at 04:51

Пишут, что иногда глючат и не видятся все 48, а только 32. Судя по вашим ответам — не подтверждаете?

SlavikF Jun 10 at 14:18

OS: Ubuntu 24.

Видятся 48ГБ.

Обычные драйверы, ничего особо не настраивал специально, всё "из коробки".

Вот тут я написал результаты бенчмарков, мерил скорость у неё:

https://www.reddit.com/r/LocalLLaMA/comments/1j11js6/i_bought_4090d_with_48gb_vram_how_to_test_the/

StraNNicK Jun 10 at 10:38

RTX 4090D 48GB VRAM (китайский мод)

подскажите, где такую взять (гуглить умею, но судя по "китайский мод", лучше спросить про проверенный вариант)?

Quarc Jun 11 at 01:12

Есть вот тут: https://www.avito.ru/brands/mdm/

Derapt Jun 11 at 04:38

Являюсь обладателем 48/96 инженерника Sapphire Rapids, тоже покупал с мыслями о AMX. В общем, смысла от них не много, всё упирается в скорость памяти.

Система:

Xeon QYFU (48/96, 2.8 GHz по всем ядрам)
4 канала * 64gb DDR5-4800
2 * RTX 3090

Софт:

LM Studio

Результаты:

Модель Qwen3-30B-A3B Q8_0, контекст 2400 ток:

Только CPU:
- До первого токена: 34 сек
- Скорость генерации: 13 т/с
50/50:
- До первого токена: 12 сек
- Скорость генерации: 17 т/с
Только GPU:
- До первого токена: 1.5 сек
- Скорость генерации: 80 т/с

Модель Qwen3-30B-A3B Q8_0, контекст 2400 ток:

Только CPU:
- До первого токена: 48 сек
- Скорость генерации: 2.6 т/с
50/50:
- До первого токена: 13.8 сек
- Скорость генерации: 3.44 т/с
Только GPU:
- До первого токена: 2.6 сек
- Скорость генерации: 21 т/с

В общем первостепенна скорость памяти, производительность CPU не так важна.
Допускаю что в LM Studio есть какой-то косяк в работе с цпу, но вряд ли. Если посмотреть на соотношение пропускной способности памяти к т/с, то всё сходится. У проца 120-130 гб/с против 1тб/с у карты, ну и т/с соответственно в 10 раз меньше.
Скорее всего можно выжать ещё больше, но я пришёл к выводу, что выгоднее вкладывать в процы с большим количеством pcie линий и видюхи к ним.

Кстати ещё момент, с увеличением количества видеокарт скорость инференса не растёт, а в некоторых случаях даже немного падает (в случае с 1 одновременным запросом). Если проанализировать как происходит инференс на железе с помощью Nvidia Nsight, то становится понятно почему это происходит.

SlavikF Jun 11 at 04:47

Не совсем понятно, у вас в результатах сравнивается "Модель Qwen3-30B-A3B Q8_0" с "Модель Qwen3-30B-A3B Q8_0"?

LM Studio наврядли использует AMX. Это нужно или llama.cpp или ik_llama

4 канала памяти? Обычно с таким количество ядер процессоры имеют по 8 каналов.

Derapt Jun 11 at 05:28

Во втором случае qwen3-32B. Не заметил, когда писал)

LM Studio использует llama.cpp как основу для инференса llm.

4 канала памяти, ибо я на материнке сэкономил, когда покупал год назад, учитывая цену на оперативу и на платы, 8 каналов в 2 раза увеличило бы вложения.

Изначально покупал чтоб протестить будет ли вообще толк от этих AMX (не хотелось сразу вкладывать кучу денег без результата), мой вывод, что в случае больших моделей - нет. Смысл от них есть только в том случае, если не хватает именно вычислительной мощности, в случае с LLM на процах упор идёт в скорость памяти. AMX возможно может немного помочь в случае больших контекстов (не проверял, не уверен), но оно не панацея. К тому же AMX имеет весьма ограниченную поддержку типов точности, если точнее, то только bf16 и int8.
Тут на хабре есть хорошая статья о AMX: https://habr.com/ru/articles/807033/

Если кратко резюмировать: Если Вам хочется получить максимально быстрый инференс на CPU, ищите варианты с максимально быстрой памятью. Сколько именно надо ядер точно не скажу (могу попробовать выяснить примерно оптимальное количество, если интересно), но от 48 точно никакого толка с такой медленной памятью нет.

SlavikF Jun 11 at 05:39

Попробовать выяснить оптимальное количество ядер - это было бы интересно.

Я видел комментарий, что в среднем одно ядро современного (Sapphire Rapids) Xeon способно переварить 20-30ГБ/с данных модели. Поэтому если ядер много, а память недостаточно быстрая чтобы загрузить ядра - они простаивают. И наоборот - если память быстрая, но не хватает скорости ядер их обработать - то простаивает память.

Но эта цифра 20-30ГБ/c - сомнительная. Просто кто-то написал. Вот если бы реально это как-то померить, и как оно зависит от квантизации, ...

Derapt Jun 11 at 05:47

И ещё важный момент:
Когда будете покупать ОЗУ, Вам нужна именно RDIMM (серверная) память. Обычная DIMM не поддерживается этой платформой. Она (обычная) отличается по вольтажу и ключу разъёма от серверной. Проверьте внимательно совместимость.

Советую почитать доп. инфу об этой платформе тут (на форуме очень много полезной информации, которую очень сложно найти): https://forums.servethehome.com/index.php?forums/processors-and-motherboards.18/

Касательно замеров скорости ядра: Они есть в статье, которую я выше про AMX кидал, там есть график пропускной способности AMX блока (по сути самого ядра) в зависимости от размера: "Скорость загрузки AMX регистров"

Кол-во ядер померяю чуть позже, но это чисто приблизительные данные, т.к. сильно может от системы зависеть.

SlavikF Jun 11 at 06:12

Спасибо за ссылки. Кстати там тоже написана эта же цифра - около 20ГБ/с на ядро.

Насколько я смотрел проекты, то поддержка AMX толком ещё не добавлена. Вот тут пишут какие-то фантастические цифры, которые "возможно" достичь с AMX:

https://github.com/ikawrakow/ik_llama.cpp/issues/437

Ktransformer kernel can achieve 21 TFLOPS of BF16 throughput and 35 TOPS of Int8 throughput on Xeon4 CPUs — about 4× faster than PyTorch’s general AMX kernel. For DeepSeek-V3, pairing a Xeon4 CPU with a single RTX 4090 GPU achieves 418 tokens/s end-to-end throughput

Вроде бы прямо сейчас над этим работают.

Derapt Jun 11 at 08:48

Почитал, в общем 400 т/с это судя по всему скорость обработки входного промпта (и то я сильно сомневаюсь в реалистичности такой скорости).
Если перейти и посмотреть страницу на которую человек ссылается (https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md), то там видно, что в случае инференса Qwen3-235B-A22B на системе с Xeon 4 + RTX 4090 они достигают скорости 114 т/с при вычислении промпта и 14 т/с во время вывода новых. Это не мало, но и не сказать, что быстро как по мне. Я бы такое не использовал, слишком медленно для меня, тем более с рассуждающей моделью.

Я думаю что есть смысл пожертвовать парой процентов метрик в пользу скорости, взяв модель поменьше. Лично я довольно часто и много общаюсь с локальными LLM во время кодинга и попутно у меня ещё чат бот свой работает. Долгие ответы очень быстро начинают подбешивать и портят весь комфорт взаимодействия.

Сейчас я в основном сижу на Qwen3-30b-a3b, ибо 80-90 т/с великолепный результат с моментальными ответами, да и модель вполне себе умная, без проблем использует сложные инструменты и хорошо следует огромным инструкциям. Хотя честно говоря, есть у неё косяки, иногда тупит в некоторых диалогах и некоторые слова не знает)

SabMakc Jun 11 at 08:53

Если сейчас в память упирается - то как расширенный набор инструкций процессора поможет (AMX или AVX512)?
Максимум - меньше нагрузка на ядра будет.

Derapt Jun 11 at 09:18

Меньше времени будет потрачено на саму операцию вычисления. Небольшой выигрыш будет. Условно можно за раз обработать больше данных, загружать их будем столько же, зато обработаем за раз.

А если всё уместится в кеш процессора (не в случае с LLM), ты выигрыш будет очень большой.

Ядра сами по себе сложные штуки с кучей вычислительных блоков внутри, на 100% оно на самом деле никогда не загружено, в самом идеальном случае дай бог 80-90% будет. То, что пишет в мониторинге не отражает действительности. Реальную загрузку можно разве что через профилировщики типа VTune посмотреть.

Я, например, смотрел как llama.cpp работает на GPU и процентов 30 времени ядро карты простаивает выполняя другие операции, типа ввода/вывода, квантования и т.п, хотя все мониторинги пишут 100% загрузку. Да и оставшиеся 70 тоже на деле не 100% загрузка.

SabMakc Jun 11 at 09:29

Т.е. ждать будем столько же, но энергопотребление будет ниже )

Можно просто уменьшить число ядер, обрабатывающих запрос - будет меньше нагрузка. Потому как они действительно просто греют воздух в большинстве своем, ожидая данных из памяти )

У меня 2х канальная память - и по скорости вывода разницы нет, что 8 ядер обрабатывают, что 4 ядра (у меня 16 ядер с учетом HT, без GPU).
Правда скорость обработки запроса (prompt) меняется (падает в 2 раза), но и процессор не так греется - для меня это допустимый компромисс.

Derapt Jun 11 at 09:39

Да, так и есть. На самом деле, если переборщить с количеством ядер результат даже ухудшится, причём заметно. На настольных процах это возможно не заметно, но у меня при использовании 48 ядер скорость падает в сравнении с 24.

В других конфигурациях позже попробую и напишу сюда.

А на счёт энергопотребления))... Бич этих зеонов (4 ген) в том, что есть 2 варианта кристалла, MCC (32C) и XCC (60C), XCC - это сборка из 4 чиплетов соединённых EMIB шиной. Эта шина совместно с архитектурой L3 кеша приводит к тому, что проц в простое жрёт 150-200 ватт. Если включить все энергосберегайки, то потребление падает до 90, но при этом всё становится жутко тормазнутым, т.к. проц просто не "просыпается" от обычных действий.
Хотя из-за огромного кристалла (в районе 1600 мм2) охлаждать его очень легко, у меня при жоре 320 ватт больше 50-55 не греется)

Derapt Jun 11 at 16:16

Вот результаты.

Важные уточнения:

Скорость памяти в районе 120 гб/с (у инженерников она на 10-15% медленнее релизных процов)
Проц инженерный, по этому результаты в сравнении с релизными версиями могут немного отличатся в худшую сторону, но в общем закономерность должна прослеживаться.
Инференс исключительно на CPU
CPU с отключенным Hyper Threading, только настоящие ядра.
LM Studio с движком llama.cpp b5572 (llama.cpp-win-x86_64-avx2)
tFT - Время от старта до появления первого токена в секундах. Указано только для случая с контекстом, без контекста задержка плавала от 0.1 до 1 сек.
Тесты провёл как с контекстом 2900 токенов, так и без.
Тесты проводил по 1 прогону (уж очень долго и нудно это оказалось), так что результаты могут немного "плавать")
Система: Win 11

Qwen3-30b-a3b Q8_0

| Cores | tFT (2900) | t/s (2900) |  t/s (0) |
|-------|------------|------------|----------|
|     2 |         90 |        4.3 |      5.8 |
|     4 |         58 |        7.5 |       10 |
|     6 |         47 |        9.6 |     12.3 |
|     8 |         41 |       11.4 |       14 |
|    10 |         38 |       12.4 |     15.3 |
|    12 |         36 |       13.4 |     16.1 |
|    14 |         34 |       13.6 |     16.6 |
|    16 |         33 |         14 |     16.8 |
|    18 |         32 |      13.75 |     16.1 |
|    20 |       31.6 |       14.2 |     16.2 |
|    22 |       31.3 |       13.9 |       16 |
|    24 |       31.3 |       13.6 |     15.7 |
|    36 |         30 |       12.7 |     13.8 |
|    48 |       30.5 |          9 |      9.7 |

Qwen3-30b-a3b Q4_K_S

| Cores | tFT (2900) | t/s (2900) |  t/s (0) |
|-------|------------|------------|----------|
|     2 |         85 |        5.5 |      8.3 |
|     4 |         52 |        9.5 |     13.8 |
|     6 |         41 |       12.1 |       17 |
|     8 |         35 |       14.1 |     19.2 |
|    10 |       31.6 |       15.7 |     19.9 |
|    12 |       26.8 |       16.1 |     20.9 |
|    14 |       25.1 |       16.7 |     21.4 |
|    16 |       23.5 |       17.6 |     21.8 |
|    18 |       24.8 |       17.4 |     21.1 |
|    20 |       24.6 |       17.5 |     21.2 |
|    22 |       24.2 |       17.8 |     21.3 |
|    24 |       23.8 |       17.4 |     20.7 |
|    36 |       22.6 |       15.7 |       17 |
|    48 |       22.7 |       11.4 |     12.5 |

Qwen3-30b-a3b IQ1_S

| Cores | tFT (2900) | t/s (2900) |  t/s (0) |
|-------|------------|------------|----------|
|     2 |       75.3 |        4.1 |      5.4 |
|     4 |         43 |        7.4 |     9.55 |
|     6 |         33 |        9.9 |     12.7 |
|     8 |       27.1 |         12 |     15.3 |
|    10 |       23.9 |       13.3 |     16.5 |
|    12 |       21.6 |       14.7 |     18.2 |
|    14 |       20.1 |       15.5 |     19.4 |
|    16 |       19.1 |       15.9 |     19.8 |
|    18 |       18.4 |       16.7 |     20.3 |
|    20 |         18 |       16.7 |     20.1 |
|    22 |         18 |         17 |     20.1 |
|    24 |       17.7 |       16.9 |     20.1 |
|    36 |       18.3 |       16.1 |     17.9 |
|    48 |       18.2 |        9.1 |      9.8 |

Получается, что при такой скорости памяти предпочтительны 16-18 ядер (ну или аналогичная производительность, у меня они на 3.4 - 3.5 GHz в этот момент работали)
Интересно, что IQ1_S работает даже медленнее Q4_K_S, похоже есть какие-то серьёзные "затупы" помимо скорости памяти... Я полагаю это может быть связано с преобразованием весов во время инференса.
В ходе тестов оператива прогрелась до 78 градусов)

По идее могу ради интереса попробовать скомпилировать движок с поддержкой AMX, но уже завтра.

Могу ещё какие-нибудь прогоны сделать, если интересно.

На счёт "компьютера с Intel Xeon W5-3425", проверьте какая там стоит материнская плата. Процессоры для рабочих станций работают только на W790 чипсете, таких плат 4:

ASUS Pro WS W790-ACE
Asrock W790 WS
ASUS Pro WS W790-SAGE
Gigabyte W790 AI TOP

Так вот первые 2 - 4 канальные платы.

SlavikF Jun 11 at 16:54

Спасибо большое за результаты!

Я купил уже готовый компьютер - Dell Precision T7960, сегодня утром пришёл. Правда с ним только 4*16GB RAM, так что памяти надо будет докупить.

chipset W790
motherboard - не знаю какая, похоже у них своя (они называют это system board)
поддерживается 8 каналов. На материнке - 16 DIMMs.

Кстати, кто-нибудь знает, если запустятся DDR5 планки на 48GB? В их мануале написано что поддерживаются только 16 GB, 32 GB, 64 GB, 128 GB, 256 GB.

8 * 48GB (384GB) - это наверное минимум чтобы запустить нужные модели. Можно купить за $1400.

А вот 8 * 64GB (512GB) - это уже где-то $2200.

Кстати узнал, что если ставить до 8 модулей памяти - работать будет на 4800 MT/s. А если больше модулей памяти - только на 4400 MT/s

Derapt Jun 11 at 17:13

Лучше ставить те, что в мануале. Такие системы могут не запускаться с некоторой памятью, тем более проприетарные. Лучше всего брать планки с большим количеством чипов, с ними наименьший шанс проблем. И следите за типом памяти, обычная DDR5 не подойдёт (вообще там в мануале должен быть написан требуемый тип памяти).
Я покупал эту: M321R8GA0BB0-CQK

Кстати на счёт частоты, на форуме люди 8 канальную память до 6000 MT/s гнали, у меня 6к стабильно не работают, всё-таки самая дешёвая память не особо гонится). Так что эти 4800-4400 - гарантированная частота. На деле можно больше, но деловская плата наверное не даст погнать

digrobot Jun 9 at 18:15

7 т./с. нормально, хватит чтобы речь генерировать

Evengard Jun 9 at 22:45

А есть какие нить адекватные настройки чтоб на 16 GB VRAM попробовать запустить? Хочется попробовать, но с удивлением обнаружил что все ориентированы на 24 GB VRAM, а 16 уже типа видимо "прошлый век", хотя из потребительски доступных кажется достаточно всё ещё редким...

Спец устройство собирать пока не хочется, хочется на своём попробовать запустить, пусть медленно, но именно GPU + CPU

Spyman Jun 9 at 22:59

Если чисто на гпу - берите любую 7b модель из репозитория или 13b q4/q5 - они должны почти влезать.

А если на гпу + цпу, то просто любую модель, что в озу влезает.

Evengard Jun 9 at 23:10

Не хочу дистиллированную использовать, хотел именно полноценную (хотя бы самую маленькую из unsloth-вариантов)

molnij Jun 10 at 05:41

Вы хотите Deepseek 600B+ запустить на 16gb vram? o_O
Или вообще какую-нибудь модель запустить на 16gb?

Второе легко. Как сказали выше - берете любую модель подходящего размера и запускаете - никаких проблем. В линейке MS Phi есть небольшие, у LLama есть, у Gemma есть, да много у кого есть отдельно тренированные модели, влезающие в 16Gb. Имхо, самый простой вариант для прям совсем новичка - LMStudio, чуть посложнее и в зависимости от навыка и задач - open webui/ollama, или чистая llamacpp - для экспериментов даже её встроенного минимального гуя хватит (ну и еще десятки разного рода оболочек и т.п.)

Первое - ну, кхм, удачи. На обычном десктопе (не сервере, не тредрипере) если прям задаться целью, можно максимально ужатый вариант загнать в 198Гб сборку (4х48Гб - сетап который еще возможно найти и упихать в десктоп). Но это чисто спортивный интерес. Ни пользоваться для каких-то минимально разумных задач, ни что-то адекватное из неё получать не удастся. Там проблемы буквально со всех сторон будут - и по памяти едва-едва влезет, под контекст места почти не останется, и по скорости это будет грусть-печаль (хотя вариант с последними оптимизациями, когда на gpu перегружается только кэш а остальное крутится на cpu в этом исполнении еще не пробовал), ну и ужатый до предела первый квант... это не то, к чему стоит стремиться. В совсем уж теории есть варианты с подкачкой с диска, когда даже ram недостаточно. Но это уже для совсем... крепких духом и свободным временем.

yatanai Jun 10 at 12:40

А смысл? Квантованные не сильно в качестве падают. Судя по тестам до q6_0 падение макс 10%, а вот дальше уже плохо всё.

Banakhovich Jun 10 at 12:48

Могу сказать что качество хоть и падает но не так сильно как кажется. Сейчас начал писать статью про сравнение разных квантов одной и той же модели.

Killan50 Jun 10 at 04:57

Дипсик никак адекватно не запустите, даже сборка что в посте это просто эксперимент с очень низкой производительностью, на чем-то бытовом сразу забудьте.
Если именно дипсик не важен, идете https://huggingface.co и подбираете модель под свои ресурсы, тысячи их и их тюнов. Однако чудес не ждите, на сегодняшний день какие-то реальные мозги у моделей общего назначения начинаются с Gemma 3 27b, запихать её в 16 vram конечно можно, особенно на гибриде с RAM, но производительность просядет, поиграться хватит но не более. Всякие мелкие модели как правило более прикладные, к примеру с переводами уже неплохо справляются 4b.

apcs660 Jun 10 at 07:22

вчера как раз попробовал gemma 3 27b на 16 VRAM карточке (4060 вроде).

Тормозит как пьяный слон. 12б работает резво (целиком входит).

Сегодня забираю 3090 24 ГБ (бу), попробую с ней. Две карты нужны были для достаточно простой задачи, не для прогона больших моделей (RAG демки).

Валялось всякое железо - десктоп старый, в нем карта 4060 от демки год назад, minisforum 1290 Intel /64 RAM, пара плашек на 64 ГБ, штуки 3 SSD.

Докупил minisforum еще один (на озоне из Китая, цена вполовину), в минисфоруме что хорошо: оптика, 2 SPF+, в дополнение к обычной сети и один слот pcie, можно еще карту расширения вставить (oculink), при этом компактный.

Карточку добавил на 2 SFP+ для десктопа (intel 570 вроде, на али, 1800 руб), и метровые кабели (тоже на али). Oculink PCIe карты (около 1000 руб) и внешний minisforum egpu на oculink (5600 руб).

Получилось бюджетно собрать мини кластер, с full mesh SPF+, выделенные каналы по 10 гбит между всеми нодами (гигабайт в секунду льется без проблем с пингом менее 1 мсек) - можно собрать небольший K8S кластер для домашних PoC, цеплять видюхи к нодам по окулинку, или все три видюхи по тому же окулинку к десктопу.

fleur_de_lys_felix Jun 26 at 06:17

Докупил minisforum еще один (на озоне из Китая, цена вполовину), в минисфоруме что хорошо: оптика, 2 SPF+, в дополнение к обычной сети и один слот pcie, можно еще карту расширения вставить (oculink), при этом компактный.
Карточку добавил на 2 SFP+ для десктопа (intel 570 вроде, на али, 1800 руб), и метровые кабели (тоже на али). Oculink PCIe карты (около 1000 руб) и внешний minisforum egpu на oculink (5600 руб).
Получилось бюджетно собрать мини кластер, с full mesh SPF+, выделенные каналы по 10 гбит между всеми нодами (гигабайт в секунду льется без проблем с пингом менее 1 мсек)

а в сторону ARM-материнок (одноплатников с PCIe) не смотрели?

Banakhovich Jun 10 at 06:47

Конечно есть и достаточно не лохие на моей сборки начинают генерацию со скорости 10 t/s и занимают в памяти GPU 15GB и 233 RAM https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/Q2_K
только подберите размер контекстного окна думаю что 8-16k должно быть ок, возможно и больше. единственное я тестировал на модели Q2_K_XL она немного больше чем та которая сейчас лежит на сайте. её обновили буквально сегодня. учитывая уменьшение размера небольшое будет по идее ещё шустрее.

И ещё 24GB уже давно не топ, сейчас RTX PRO 6000 96GB....

apcs660 Jun 10 at 07:28

за ссылочку спасибо. 24 понятно что не топ, это вопрос бюджета.

Я вот сейчас, в творческом отпуске - если покупаю что то себе (видюху к примеру), значит и жене надо сопоставимый подарок сделать (женщины найдут на что потратить любой бюджет). Никаких заначек не хватит если для проб 96 гб карты покупать поиграться. Это ж не более чем практикум, для наработки опыта, играться с железяками дома. Хотя, тысяч 10-20 баксов можно потратить, если очень нужно, но все таки дом не работа.

Для домашних демок нормальных сеток можно токены купить, в том же vsegpt.ru - посмотрел, сравнил, оценил и достаточно.

Смотреть как сетка выплевывает по токену в секунду (или две) так себе удовольствие, это как программировать в windows на 386SX33 (была такая шутка) - я бы рядом с таким человеком опасался сидеть рядом ;-)

riv9231 Jun 10 at 20:32

Возьмите в дешевую аренду на vast.ai или clore.ai заодно докер изучите.

apcs660 Jun 11 at 02:50

Смотрел эти варианты - задач под ai у меня реальных нет, просто обучение.

Если делать что то нормальное, конечно нужно арендовать подходящее железо а не городить дома ферму. Отказался от 25гб карты - она ничего не решает в плане обучения, 16+4 карт достаточно вполне.

С докером знаком несколько лет, выпускал сборки своих продуктов на нем, так как вел 3 достаточно больших проекта на java, интеграционные тесты тоже на нем же, и просто разработка, к примеру базы не нем часто гонял (ставить замаешься). С начальством по поводу докера шла позиционная война, в итоге продавили, но тут "меня ушли".

K8s подзабыл, да и не был девопсом - lens пользовался пару лет назад когда разбирали 3 монолита на набор микросервисов, но в прод это не пошло - почти два года работы в унитаз. Собрал минимальный кластер на 3 ноды (не люблю виртуалки для этого), поиграюсь с одним пет проектом (security in lucene), встряхнуть, а там и работу надо будет искать к началу сезона (август)

Shannon Jun 10 at 07:28

А есть какие нить адекватные настройки чтоб на 16 GB VRAM попробовать запустить? Хочется попробовать, но с удивлением обнаружил что все ориентированы на 24 GB VRAM, а 16 уже типа видимо "прошлый век", хотя из потребительски доступных кажется достаточно всё ещё редким...

На 16гб без проблема запускается на тех же настройках, что и для 24гб. Вообще, для запуска нужно всего 9гб VRAM, так что у вас приличный запас, если обычной памяти хватает.

Вот только запустил DeepSeek-R1-0528-UD-IQ1_S (под рукой другой нет) на 4060 ti 16гб с дефолтным запуском через:
.\llama-server -m "D:\models\DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf" -ngl 99 -ot exps=CPU -fa

4.5 t/s под Windows, под Linux обычно на 20% быстрее

Память на 4060 медленная, всего 288 гб/с против 1000 гб/с у 3090/4090 + ddr5 192gb 4800Mhz скорость 70 гб/с (на двухканале DDR5 можно получать и 100 гб/с), поэтому если у вас скорости выше, то и t/s будет выше.

Но если памяти не хватает, то запускать можно прям с nvme, и тогда лучше сразу пробовать R1-0528-IQ1_S_R4 на ik_llama, она весит 136гб против 180гб, то есть считывать данных с диска на каждому шагу нужно будет меньше. Параметры запуска там приведены.

apcs660 Jun 11 at 02:52

Raid на ssd?

Shannon Jun 11 at 08:41

Raid не поможет, нужно линейное чтение в 1 потоке. raid0/raid1 - в обоих случаях в 1 потоке будет просто поочередное чтение с разных дисков и скорость останется той же. Раид это обычно про увеличение iops, то есть про многопоток.

Вот HighPoint SSD7540 Raid0 из 8 nvme дисков. В CrystalDiskMark первая строка этого многопоточное чтение, вторая однопоточное.

apcs660 Jun 11 at 10:49

Печаль, печаль. Получается контроллер работает с одним диском в потоке, распараллеливания на уровне одного потока нет.

Отмасштабировали горизонтально а не вертикально контроллер.

А если сделать костыль программным путем - загрузка порезанного gguf из кусков в разных mount points?

У меня был проект кастомного серчера Lucene ( довольно извращенного, по наследству), где нужно было выжимать максимум в вертикальном масштабировании, использовали в нем композитный индекс на нескольких дисках. Поиск в шардах был многопоточный. Этакий сплющенный в одном процессе кластер

Kreatifchk Oct 22 at 18:16

Немного непонял, модель не загружается в память полностью, по принципу файла подкачки?

Shannon Oct 22 at 21:33

Да, содержимое файла модели мапится на память через mmap не загружаясь в память по настоящему. Для программы всё выглядит так, что модель находится целиком в памяти и во время чтения тензоров модели ОС сама подгружает данные с диска и выгружает их.

Всё это работает очень медленно, даже если тензоры внимания и первые общие слоя (у deepseek это первые 3 слоя) вынести на GPU, обычной RAM не совсем уж мало, а nvme не самый медленный, то можно получить 1-2 t/s с диска. У меня на 64гб удавалось выжимать 3.3 t/s на 4090.

Для сравнения, если целиком модель влезает в RAM память, то на 4090 получается 7.5 t/s: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

VladN803 Jun 13 at 13:14

R5 5700x,3060 12gb, 32 ram. Смог и пообщаться с qwen3 8B, и погенерить картинки в SD, и видео в WAN 2.1. Ответы хорошие, квен почти сразу выдала питон код для тг бота, который интегрирует квен и SD. Прошлый век — понятие растяжимое, растягивает кошелек в основном. Поэтому рекомендую заняться, штука увлекательная.

Advisory Jun 10 at 03:13

Видеокарта появилась не сразу, а была куплена чуть позже для эксперимента с улучшением скорости работы. Как оказалось в дальнейшем, прирост был значительным.

Произошли ли изменения в использовании ОЗУ после переходя на GPU? Если да, то как.

Banakhovich Jun 10 at 06:23

О да на памяти отразилось очень сильно!
CPU - 486GB
CPU+GPU - 352GB

Antra Jun 10 at 05:41

Отличный комп. Прямо как я хотел в свое время, чтобы и достаточно компактный, и с кучей памяти, и с видюхой хорошей.

Может прозевал, но какая итоговая цена вышла (примерно)? Просто ориентировочно сравнить с Mac Studio, на которых якобы вполно комфортно можно Deepseek запускать даже неквантованный.

Хотя при таком объеме памяти и цена будет космическая. Быстрый поиск по Авито:

349 990 ₽ - MAC Studio (M3 Ultra/ 28 CPU/ 60 GPU/ 96GB/ 1TB)
1 199 900 ₽ Mac Studio M3 Ultra 32CPU 80GPU 512GB RAM 4TB SSD

Banakhovich Jun 10 at 06:06

общая сборка вышла в районе 230 т.р.
когда планировал сборку смотрел разные обзоры в том числе и на Mac Studio M3 Ultra 32CPU 80GPU 512GB RAM 4TB SSD а точнее на то с какой скоростью там работает DeepSeek есть на ютубе пара роликов так там получалось всего в районе 6t/s, это меньше чем на том что я собрал.

Antra Jun 10 at 07:11

Для такого сетапа весьма оправданная цена.

Banakhovich Jun 10 at 06:08

Не квантованный DeepSeek требует почти 1,5 ТБ памяти....

Antra Jun 10 at 07:10

Да, действительно квантованный. Видимо я попутал, в связи с тем, что ЭDeepSeek’s approach activates only about 37 billion of its 685 billion parameters during specific tasks"

M3 Ultra Mac Studio 512GB prompt and write speeds for Deepseek V3 671b gguf q4_K_M, for those curious

Deepseek V3 0324 Q4_K_M w/Flash Attention

4800 token context, responding 552 tokens

CtxLimit:4744/8192,

Amt:552/4000, Init:0.07s,

Process:65.46s (64.02T/s),

Generate:50.69s (10.89T/s),

Total:116.15s

12700 token context, responding 342 tokens

CtxLimit:12726/16384,

Amt:342/4000, Init:0.07s,

Process:210.53s (58.82T/s),

Generate:51.30s (6.67T/s),

Total:261.83s

Honestly, very usable for me. Very much so.

Shannon Jun 10 at 07:42

Не квантованный DeepSeek требует почти 1,5 ТБ памяти...

DeepSeek обучен в fp8, а не fp16, поэтому не квантованный весит 700гб.

Banakhovich Jun 10 at 07:59

Может тогда странно, почему указан формат BF16. и вот на страничке unsloth тоже есть формат BF16 и размер совсем не 700.

Shannon Jun 10 at 08:26

Если в оригинале нажать на Files Info со стрелочкой, то будет видно, что BF16 и F32 там совсем немного, они нужны только для динамической активации и масштабирования.
И если посмотреть в оригинальном репозитории размер модели, то не квантованный оригинал в safetensors занимает 163 файла весящие в среднем по 4.3гб, итого 700гб.

У gguf нет поддержки квантования из fp8, поэтому чтобы квантовать модель, её сначала нужно апскейлить до bf16, и только после этого можно получить Q8 и так далее.

Banakhovich Jun 10 at 08:30

Спасибо, почитаю по подробнее.

alexhu Jun 10 at 05:55

Есть вопрос, может кто знает ответы - что если использовать карты типа Tesla k80 - у них тоже 24 Гб памяти или ТЕСЛА М10 32 ГБ. Насколько просядет производительность?

Banakhovich Jun 10 at 06:21

Это уже очень старые архитектуры Kepler и Maxwell видел сравнение както но цифры не запомнил. А вот на сравнение RTX3090 и P40 посроенной на более современной архитектуре Pascal сравнений достаточно много на ютубе. не в пользу последней P40. P40 проигрывает по скорости генерации токенов в 5-6 раз.

alexhu Jun 10 at 07:06

Бенчмарки я видел, tesla 10 - летней давности проигрывают в 2,5 раза по производительности игровым картам сопоставимым по памяти. Только их сравнивают с игровыми картами на запусках игр, а в серверной тесле многих чипов важных для игр просто нет, но есть архитектура gpu ускорителя с упором именно на расчёты.

Сейчас меня интересует только gpu ускорение, может у кого есть реальный опыт.

Banakhovich Jun 10 at 07:08

Ну так я смотрел именно тесты на инференс llm а не на игры.

ShadF0x Jun 10 at 10:45

K80 - это бутерброд из двух ГПУ на 12ГБ, больно геморройно на ней модели запускать.

alexhu Jun 10 at 12:14

Два чипа должны работать как одна память - так я читал на форумах. Хотя там такие карты обсуждались под игры.

alexhu Jun 10 at 07:06

Бенчмарки я видел, tesla 10 - летней давности проигрывают в 2,5 раза по производительности игровым картам сопоставимым по памяти

suwakomoria Jun 10 at 07:40

Вставлю свои 5 копеек.

Держу на 2 Intel Arc A770 16Gb (третью не всунул в pci-e 3.0x16 слот, хех), часто использую нейросетки для поиска информации и краткого саммари текстов, плюс по коду быстро подсказывает.

По токенам:
Deepseek-R1:14b на запрос "Напиши мне план для поездки в Киото на 10 дней - достопримечательности, туристические улицы и места для прогулок" выдал ответ с 16.78 t/s. Использовал 4719 Мб и 5212 Мб, 82W на видеокарточку.

По результату: норм, ответ на английском (запрос на русском), в целом похоже на правду, но я по карте не чекал.

По усилиям: всё сейчас сильно проще с Интеловыми видеокартами, нежели полтора года назад. Поставил драйвера по инструкции, скачал ollama-ipex portable package с оф. гит репозитория, и играйся дальше. Я лично подключил Open Web UI + Searxng, довольно урчу.

По деньгам: 30 тысяч рублей/карточка + 35 тысяч за Threadripper 1950X с материнкой + 17 тысяч за блок питания и 10 тысяч на корпус, охлаждение и прочее.

В общем, не нвидией единой, хотя токенов наверняка побольше будет именно на Nvidia. Ну и gemma3 запускать я не могу, так как Ollama-IPEX для Интела отстаёт на несколько версий от Ollama.

puchuu Jun 10 at 11:33

Запустите ipex llm с помощью docker compose из мастера. Там оллама последней версии.

suwakomoria Jun 11 at 09:40

Огромное спасибо за совет, я не знал. Поиграюсь в выходные июньские. :)

Vedomir Jun 10 at 11:40

14b - это же не оригинальный DeepSeek, это дистилированные маленькие модели, или я чего-то не понял?

Banakhovich Jun 10 at 12:46

Правильно, просто часто путают их.

Antra Jun 10 at 08:53

Интересно было бы узнать мнения, какие модели рекомендованы в таких сетапах именно для кодинга (в основном, python).

К примеру:

> ollama ps
NAME                                               ID              SIZE     PROCESSOR    UNTIL
fomenks/devstral-small_cline_roocode-64k:latest    aeb226743332    45 GB    100% CPU     4 minutes from now
> ollama ls
NAME                                               ID              SIZE      MODIFIED
fomenks/devstral-small_cline_roocode-64k:latest    aeb226743332    14 GB     46 minutes ago

Выдает для небольшого запроса (ollama run --verbose)

total duration:       1m55.197684067s
load duration:        32.888283ms
prompt eval count:    6332 token(s)
prompt eval duration: 2.576663468s
prompt eval rate:     2457.44 tokens/s
eval count:           499 token(s)
eval duration:        1m52.129634959s
eval rate:            4.45 tokens/s

Жить можно.

Но почему такая огромная разница в объеме 14GB / 45GB?

Есть ли смысл выбирать модели с суффиксом roocode? Оптимизированы под CPU? (конкретно эту не гонял на машине с GPU 16GB RAM, но glm4*roocode очень сильно на GPU оффлоадилась). Или их надо спрашивать не вручную или через OpenWebUI, а именно через RooCode?

По ощущениям показалось, что на сильно квантованных моделях на слабом сервере с GPU работает намного быстрее, чем на мощном сервере только с CPU (и это ожидаемо). А если не так сильно квантовать, в VRAM уже не влезает, и вроде CPU с кучей RAM должно себя лучше показывать, но там такие тормоза начитаются, что все равно не юзабельно... Да и Ollama вроде только 16 потоков пускает, не все CPU задействует.

Если платные API использовать - даже тут не очень понял, что лучше. Как бы DeepSeek пишет не хуже, чем какие-то coding модели с OpenRouter. При этом DeepSeek дешев, особенно в скидочные часы.

puchuu Jun 10 at 11:35

Модели devstral, qwen3 и qwen2.5-coder. Есть еще cogito, но она очень плохо слушается промпта. В идеале купить 2 карты по 24 гб каждая.

Antra Jun 10 at 12:14

Ага, ОК. qwen2.5-coder юзал. Маленькие фрагменты (а-ля "напиши функцию, сортирующую словарь; сначала ключи из списка, остальные в алфавитном порядке") хорошо подсказывала. Devstral смотрю - вроде норм.

Qwen3 - там ведь нет "coder". Я в таких вопросах очень слабо понимаю, сразу настораживаюсь. "сердцем чувствую", что сама модель, понятно, лучше, чем ее предшественница 2.5. Но вдруг без тренировки на coder вполне может в этой части оказаться и хуже по качеству, и гораздо требовательнее к ресурсам за счет кучи "ненужных для кодинга знаний".

puchuu Jun 10 at 14:38

Для квин 3 все зависит от языка. Тайпскрипт она у меня пишет очень хорошо. А вот баш скрипт лучше пишет квин 2.5 кодер. Еще у квин 3 более высокая температура. Но в целом иногда квин 3 дает очень интересный результат и я его использую.

Antra Jun 10 at 16:14

Прямо локальный qwen3:32b используете для всяких плагинов деволоперских (а-ля roocode VSCode) и довольны (не драматически слабее того же chan.qwen.ai)? Или что-то более навороченное?

puchuu Jun 10 at 21:39

Да, обычный qwen3:32b без наворотов.

puchuu Jun 11 at 16:46

ЗЫ вчера выложили рассуждающую модель magistral, начал также использовать ее. Получил очень положительные результаты. Модель немного умнее, чем devstral. Но с этой моделью надо быть аккуратным т.к. у нее есть системный промпт, если нужно кастомизировать системный промпт, то надо сначала скопировать оригинальный.

Antra Jun 11 at 18:01

Интересно, спасибо, попробую. Увидел нового зверька, но решил сперва подождать отзывов от понимающих людей.

Еще вопрос - когда вы с roocode (ну или еще чем) с этими моделями работает, вы их через что запускаете?

У меня почему-то через Ollama (на другой машине) обычный кодинг работает, а, к примеру, memory bank не создает. Тужится, пыжится, и облом. То кнопку запроса не выдаст, то просто ошибка...

При этом бесплатный Deepseek через OpenRouter моментально это делает.

Может это особенности (скажем, ограничения на выполнение действий) не модели, а "оболочки", и, к примеру, с LM Studio, лучше получится?

Antra Jun 11 at 18:48

Собственно, все докачалось, проверил devstral на LM Studio 0.3.16.

Отлично создала memory bank, наполнила его информацией из подсунутых ей CONVENTIONS.md и т.п.

Так что, видимо, причина моих страданий - Ollama. Хотя просто код через нее писало хорошо. Вплоть до извращений типа "выполни на Ansible сложную задачу с иерархией и рекурсией". И она для этого предложила custom filter (ну который на python пишется).

puchuu Jun 10 at 11:31

Использовать сервер с DeepSeek-R1-0528 для обычных бытовых запросов наверное нет смысла из-за скорости ответа. Для этого стоит либо использовать модели попроще, например Llama 4 Maverick. Она хоть и туповата по сравнению с DeepSeek R1 на сложных запросах, зато даёт фантастическую скорость в 30 t/s для модели в 400 миллиардов параметров.

Читайте пожалуйста внимательно, что написано на странице модели: 16x17b, 128x17b. Лама 4 - это так называемая неплотная модель. Она представляет из себя 16 либо 128 экспертов по 17b каждый. Поэтому она тупее, чем плотный дипсик, но она может работать быстрее т.к. эксперт может разместиться и работать в рамках видеопамяти даже карты на 16 гб.

programania Jun 10 at 11:38

А что может "DeepSeek-R1-0528-UD-Q4_K_XL занимает 384GB на диске"
чего не может, например, gemma-3-27b-it-Q4_K_M занимает 16GB на диске?
По промпту из статьи о Хабр выдала примерно тоже около 7кб и еще
добавила личное мнение о своём ответе и вопросы для обратной связи.

Banakhovich Jun 10 at 12:08

Здравствуйте! Статья была не про сравнения разных моделей. а про запуск большой модели на достаточно скромном железе. Промпт был не для оценки качества работы модели а для оценки скорости. gemma маленькая модель её можно целиком поместить в видеокарточку и получать думаю порядка 40t/s. Если её хватает для задач то вполне можно и её использовать. А иногда кому-то хочется запустить большую модель и не потому что она лучше или хуже чем модель поменьше размером а просто потому что хочется поэксперементировать.

SabMakc Jun 10 at 12:42

Хм... А двух процессорная сборка приведет к удвоению скорости?
В 2 раза больше каналов памяти будет... А по деньгам, насколько я понимаю, сравнимо.

Banakhovich Jun 10 at 12:45

Нет, наоборот будет медленнее, llama.cpp пока не умеет корректно работать с двумя процессорами. Есть статьи где с более мощьными двумя процесслрвми получали куда более низкие скорости. Я думал над двумя процессорами но прочитав результаты таких сборок отказался от идеи.

SlavikF Jun 10 at 14:34

Инференция на двух процессорах может быть медленнее.

Вот тут я пробовал запускать на двух Intel Xeon Gold 5218:

https://github.com/Mozilla-Ocho/llamafile/issues/765

Получилось около 4 токенов в секунду.

На одном процессоре - около 8 токенов в секунду.

Насколько я смог разобраться, это потому что один процессор работает с памятью на полной скорости (~120GB/s в моём случае), а если процессора два - то работа с памятью идёт через NUMA, а это - около 20GB/s для памяти на "чужом" процессоре.

litalen Jun 10 at 19:03

Не знаю как у llamafile, но у llama.cpp есть ключик "numa". Не пробовали с --numa distribute? Более того там есть как раз --numa numactl.

evgeniy_kudinov Jun 10 at 13:13

Спасибо, что поделились своей сборкой и экспериментами. Уже почти под бюджеты большинства людей подходит. Думаю, что скоро у каждого появится возможность установить под столом своего собственного «Домового», учитывая тенденции и стоимость железа.

Banakhovich Jun 10 at 13:24

Год назад о моделях открытых с таким количеством параметров да ещë на железе которому уже 5 лет (почти) даже и подумать было нельзя.

molnij Jun 11 at 02:50

llama 405B примерно год назад вышла :D

vikarti Jun 11 at 05:54

Ждем еще годик когда появится возможность не думать подходит ли под бюджет для экспериментов а брать оставить если оно может потребоваться хоть в теории? :)

xuz Jun 10 at 13:41

Интересная статья, спасибо.

Вопрос: На AMD Ryzen AI Max+ 395 с 128Gb оперативки можно будет запустить DeepSeek-R1?

Banakhovich Jun 10 at 13:42

Нет, слишком мало даже для самой крошечной квантизацией.

Brenwen Jun 10 at 22:54

Я DeepSeek рассуждающий (не помню какая конкретно модель, на 12-13 Гб) запускал на ROG Ally с 16 Гб памяти (причем 5 из них выделено под видео), работает достаточно шустро и рассуждает здраво. Я аж удивился. Если надо - могу глянуть какая конкретно модель.

Banakhovich Jun 11 at 04:09

Это дистилировпнные версии, это переобучение другие модели либо qwen либо llama

Brenwen Jun 11 at 07:44

Посмотрел - действительно, Deepseek R1 0528 Qwen3 8B. Еще из отлично работает gemma3 12В от google. Я вообще удивлен, что можно в принципе запустить LLM на такой слабой платформе и она будет настолько шустро крутиться и генерировать не бред.

Banakhovich Jun 11 at 07:47

8 миллиардов параметров это не очень маленькая модель))) вполне подходит для быстрых и простых запросов. Конечно с огромными с размерос около 700 миллиардов не сравнить но тем не менее имеет своë применение.

Brenwen Jun 11 at 08:14

Извиняюсь за нубский вопрос, можешь в общих чертах сравнить возможности таких легковесных моделей с полноценным DeepSeek? Только ли разница в объеме данных для обучения? У меня та же gemma работает шустро (5.3 токена в секунду)отвечает на вопросы правильно, может переводить с разных языков, единственное что - падает при попытке проанализировать картинку. Где предел ее возможностей?

Banakhovich Jun 11 at 08:28

Вся разница появляется при работе со сложными логическими задачами. Или с написанием кода. В принципе попробуй сам по тестировать возьми свой deepseek маленький и чат дипсика он бесплатен. По задавай одни и теже вопросы по нарастающей увеличивая сложность. Разницу сам увидеть сможешь. Только итак можно понять разницу, цифры в тестах они не дают понимания реальных возможностей. Тот де deepseek у меня в одном из тестов писал с одного запроса код на Python больше 1000 строк такой что он запустился сразу.

kibiman Jun 10 at 16:58

У меня сборка из китайской мат платы x99-f8 + xeon 2699v3 + 512Гбайт оперативы
Результаты: DeepSeek R1
2.2 т/с в начале
2~1.8 т/с в середине
и до 1.1 т/с в конце на длинных ответах
Топ модели доступны)
По стоимости: матплата 10тр + проц 10тр + оператива 50тр + ssd по вкусу

Модель используется DeepSeek-R1-0528-UD-Q4_K_XL-00001-of-00008.gguf

SlavikF Jun 10 at 18:25

Если у вас всё сконфигурировано оптимально, то максимально возможная скорость памяти - 68GB/s. Практически - меньше.

С этим особо не разгонишься.

kibiman Jun 10 at 18:33

Это да)))

Пытался поставить 2699v4, тогда память завелась бы на 2400, но не взлетело, похоже питание на материнке не вывозит, просто виснет или перезагружается

Но факт то, что это минимальная конфигурация по цене которая позволяет запустить подобную топовую llm, пускай медленно)

Banakhovich Jun 10 at 18:44

Удивительно что 512 завелись, у материнки в спецификации 256 максимум, во всяком случае так на Али написано.

Banakhovich Jun 10 at 18:41

Круто что работает, но это сверх медленно. Хотя наверное есть практическое применение, качественный промпт написал,на ночь поставил, спиш под шелест кулера как под шум дождя, к утру 32000 токенов готовы.

MaxFoton Jun 10 at 16:59

Уважаемые знатоки! помогите пожалуйста, мне новичку определиться с несколькими моделями для создания персонального AI агента на своем сервере с возможностью дальнейшего обучения.
Рассматриваю такую связку: DSPy + Playwright + Subprocess + Autogen / CrewAI
характеристики моего сервера:
Ubuntu 22.04.4 LTS.
CPU:
Info: 2x 22-core model: Intel Xeon E5-2696 v4 bits: 64 type: MT MCP SMP
RAM: 512
Graphics:
NVIDIA GeForce RTX 4070 Ti/PCIe/SSE2 12 VRAM
RAID:
Device-1: md0 type: mdraid level: raid-0 status: active size: 3.64 TiB
p.s. возможности купить сейчас более мощную видяху - нет(

Johny23 Jun 13 at 19:29

Всем привет мой сервер 2686v4, 4шт gpu amd mi50 16G, Deepseek R1, 70B, GPTQ квантовние, скорость 42ток. В секунду быстрее чем 4090, как тебе Такое "илон Маск", qwen3 32b AWQ, 38-40 токенов, тоже быстре 4090:). Так что фуфло ваше нвидиа и цпу:) если соберу в сеть через infinity bend 100G, много серверов то можно макисмальный дипсик гонять. С большой скоростью

15 одновременных запущенных чатов на генерации:)