took_the_lead 30 янв в 06:09

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

4 мин

59K

Искусственный интеллектМашинное обучение * DevOps * Компьютерное железо

Туториал

+25

Комментарии 70

Закреплённые комментарии

Shannon 2 фев в 13:31

И в низкий квант не верю. Поэтому запускать R1 не буду.

В обычный низкий квант да, но есть динамический низкий квант.

Обычный низкий квант, вроде IQ1_M, это почти все веса, включая веса Внимания и Feed-Forward Network, часть необходимая для работы Внимания, почти все они в очень низком кванте. Именно это снижает возможности модели "мыслить" и рассуждать, в итоге в ответ получается очень не качественные ответы, так как затронута главная часть трансформера. Вот так выглядят веса обычного экстремально низкого кванта:

пример очень низкого кванта DeepSeek-R1-Distill-Llama-70B-IQ1_M

В динамическом очень низком кванте UD, который собрал unsloth, все важные веса оставлены на уровне Q4 или Q6, поэтому главная часть модели по сути на уровне Q4_K_M.

пример динамического квантования DeepSeek-R1-UD-IQ1_S

Остальные веса в экстремально низком кванте IQ1 и IQ2, но это в основном только нисходящие и восходящие веса ffn не главных экспертов, а также веса переходов между экспертами, что не так фатально сказывается на возможности модели рассуждать и "мыслить". При этом эти же веса главного эксперта (в MoE множество экспертов, но в моменте активны только часть из них) оставлены на Q4 и Q6, что тоже видно на скриншоте выше.

Но даже так, у не основных экспертов, главные веса Внимания оставлены на Q4 и Q6:

Так что динамический низкий квант не тоже самое, что просто низкий квант, и его вполне можно попробовать. Особенно в ваше случае, когда в 192гб можно попробовать уместить UD-IQ2_XXS (только тут главное не перепутать с обычным Q2).

Вот я запускал DeepSeek-R1-UD-IQ1_S на обычном ПК ryzen 5600g + 64gb ddr4 3600 + nvme на скорости 0.82 t/s. То что не влезло в память, загружалось с ssd.
Пример простой, но не каждая модель может правильно решить эту простую головоломку. И обычно на таком низком кванте язык превращается в кашу, а мысли путаются, тут же рассуждения остаются на приемлемом уровне. И это на самом низком динамическом кванте, если чуть повыше, то будет еще лучше.

sirmax123 30 янв в 06:49

Это называетс теперь "туториал" ????
Аффтар (простите как его еще назвать?) не сделал ничего кроме как надергал картинок из интернета, как кто-то друго собирал (а может и не собирал?) железо ...

Звчем эта "статья" вообще?
Ах да, телеграманал ...

took_the_lead 30 янв в 06:59

Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды. Может можете показать пример эталонного туториала, написанного Ваши лично? Нет? Ах да, вы же не писали никогда ни одной статьи, но много комментируете, молодец!

sirmax123 30 янв в 07:11

>Ах да, вы же не писали никогда ни одной статьи
Конечно, лучше жевать чем писать такие статьи, да и телеграмканала у меня нет, нечего рекламировать

А что бы отличать плохие статьи от хороших, мне не нужно писать свои

>Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды.

Этот, прости гпоспАди, "туториал" имел бы смысл если б Вы сами собрали сервер и поделились сложностми которые возникли ) Но Вы этого конечно не сделали, я уверен даже не проверили совместимость комплектующих, просто перепечатали из оригинального поста (я его не читал - там надо регестрироватьсяа мне уже который год лениво)
Ну а вопросы "почему такая железка выбрана а не другая" заботливо оставлены на самостоятельнуж проработку ) "Туториал", блин )

took_the_lead 30 янв в 07:21

Идея была в том, чтобы оперативно донести до сообщества свежую (полезную) информацию из зарубежных источников. Наливать воды для повышения плотности поста, простите, нет желания. Что касается самому собрать сервер - для моих задач пока этого не требуется, хотя идея интересная была бы в практическом аспекте в том числе. Донесена основная идея о том, что можно запустить СОТА модель без ГПУ, за счет многопоточности и большущей РАМ. На оригинальность не претендую.

Tantacula 30 янв в 14:18

Так вы не собрали что ли этот сервер? Это как зарелизить фичу не протестировав ее. Как вы убедились в достоверности вашего "туториала"?

took_the_lead 30 янв в 14:58

Данную сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагаю. Но запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, той же llama.cpp и всё хорошо работало, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

HellQwer 2 фев в 21:09

А не считал сколько на каких-нибудь бу проф видяхах с Авито обойдется? Имеет какой-нибудь смысл?

zandernachtsohn 30 янв в 18:04

Смиритесь, таково будущее загнивающего хабра. Ниочемные статейки, которые раньше даже на гиктаймсе бы заминусовали, бесконечная реклама телеграмм-каналов и медленная и мучительная смерть.

sgnppv 19 фев в 17:44

Сколько лет пророчат хабру скорую смерть или даже констатируют её? Мне кажется, 3/4 моего пребывания здесь.

mxr 30 янв в 07:03

Запускал сегодня huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated на ollama с GPU в docker, интерфейс через open-webui. Около 3-4 токенов/сек на r9 5900x с rtx 2070s.
Поиграться Интересная модель для тестирования, но работает удовлетворительно лишь на английском, вероятно, из-за своего размера. Жаль, что в статье нет практических тестов — только пересказ теории из Twitter.

Идея для вас, автор: я тратить деньги не планирую, но ради статьи вы могли бы протестировать полноразмерную модель на 8xH100 от Nvidia. У DigitalOcean есть неплохое предложение ~$23/час.

А если серьезно, то с учетом стоимости API экономический смысл локального запуска модели для большинства задач отсутствует. Единственное, что действительно вызывает беспокойство, — их подход к безопасности. Судя по всему, сервисы они разрабатывают при помощи собственной AI модели.

P.S. В видео, в отличие от оригинала из Twitter, практически ничего не разобрать.

took_the_lead 30 янв в 07:17

Спасибо за дельный комментарий, видео перезалил на вимео. Всё же дистиль и оригинальная ризонинг модель это разные вещи. Я достаточно тестировал эту модель еще до хайпа на сайте chat.deepseek.com и на poe.com. В посте по этому "конкурировать" с решениями от OpenAI взято в кавычки. Использую в основном в кодинге, как альтернативное OpenAI o1 мнение - хороший кейс. Экономический смысл есть, с учетом последних кейсов их утечки всех чатов https://habr.com/ru/news/877806/.

gun_dose 30 янв в 07:14

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

Статью не читал, но за заголовок спасибо. А то уже натыкался на что-то вроде "Как запустить Dick Sick локально на своём компьютере", а потом оказывается, что на моём ноуте, которого для работы хватает выше крыши, можно запустить только самую усечённую версию, и ждать ответов по несколько минут.

melodictsk 30 янв в 07:33

Все же выгрузка части слоев на гпу даёт пропорциональный буст. В эту сборку уже не будет смысла ставить р40, т. к псп врам 350 гб/с, что сопоставимо со скоростью озу. Но вот 3090 даёт под терабайт/с. И соответственно выгруженные слои будут шевелиться в 3 раза быстрее.

took_the_lead 30 янв в 07:41

Судя по всему нужно пропорционально делить нагрузку при инференсе, а в текущем случае даже х2 4090 скорее всего не дадут практически никакой пользы при таких соотношениях. Ускорение будет зависеть от того, насколько эффективно llama.cpp распределяет работу между CPU и GPU. Если большая часть модели остаётся в RAM, то прирост будет скромным.

CBET_TbMbI 30 янв в 07:34

А автор сам проверял?

Я не уверен, но слышал, что хоть запустить на обычной оперативке и процессоре можно, но работать будет на порядок медленнее.

took_the_lead 30 янв в 07:40

Автор к сожалению сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагает. Но автор запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

mithdradates 30 янв в 19:40

Все верно, даже при пустом контексте будет скорость в 1-2 токена в секунду.

akirsanov 30 янв в 08:46

перевод твит треда без плашки "перевод"

AndreyDmitriev 30 янв в 08:49

У меня под столом есть вот такая машинка, на Хeon 6132 c WX9100 (там 16 ГБ всего):

768 ГБ памяти, вот бенчмарк:

По дискам там четыре NVMe SSD терабайтных, вот такие, их можно в рейд объединить:

Имеет смысл сделать подход к снаряду на таком железе, или эта конфигурация слабовата?

Moog_Prodigy 30 янв в 09:17

Имеет смысл, у вас железо есть, скачать и настроить это не очень сложно. Зато хоть реальный отзыв будет с замерами скорости.

AndreyDmitriev 30 янв в 10:15

ОК, я глянул инструкцию по сборке, там вроде из Visual Studio 2022 собрать всё можно, даже операционку переставлять не придётся, сейчас там десятка. "просто" не всегда бывает, я в конце прошлого года упражнялся с FastSD CPU, напрыгался с версиями знатно. Ладно, попробую выкачать это дело на выходных, на работе мне 503 прилетает:

D:\DeepSeek\DeepSeek-R1-GGUF>git sparse-checkout set --no-cone /DeepSeek-R1-Q8_0
Downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (48 GB)
Error downloading object: DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (8917f4d): Smudge error: Error downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (...): Fatal error: Server error: https://cdn-lfs-us-1.hf.co/repos... HTTP 503

nerzhul 30 янв в 10:50

Вам не нужно ничего собирать руками. Советую скачать тул LM Studio в котором все делается через gui в том числе и скачивание любых моделей с hugging face. В нем же реализована загрузка бэкендов, проверка совместимости, куча ручек для управления настройками и т д. Консольный решим тоже есть

AndreyDmitriev 30 янв в 11:33

Спасибо огромное, посмотрю тоже, ни разу не пользовался.

Конкретно для скачивания моделей не сильно помогает, так как у меня очень злобный админ:

Да и формально, для использования на работе там надо форму заполнить. Но дома гляну. Собрать руками тоже попробую, я в общих чертах понимаю как это работает, а вот детально в код никогда не заглядывал.

CBET_TbMbI 30 янв в 12:35

https://habr.com/ru/articles/876320/ вот тут есть инструкция, правда через другой инструмент. Возможно, поможет.

У вас на скрине вроде бы урезанная версия.

AndreyDmitriev 30 янв в 13:09

Там Ollama, этот проект вроде как основан на llama.cpp. Кстати, я посмотрел, в релизах llama.cpp тоже есть билд под Windows (по посту выше я думал там только исходники), причём собранный в разных конфигурациях, типа AVX2 или AVX512, так что собирать ничего и не нужно (я в обеденный перерыв попробовал навскидку, с полпинка не завелось, cmake сыпет ошибками). В первом приближении надо просто посмотреть. что можно получить на машинке, что у меня есть, надо только модель скачать.

cool8 30 янв в 13:18

Вот здесь ещё хорошие ребята хорошо пожали оригинал, и расписали, как запускать. https://unsloth.ai/blog/deepseekr1-dynamic

nerzhul 30 янв в 13:40

Конкретно полный deepseek я не ставил, т.к. некуда, но дистиллированные модели гоняю в LM Studio давно уже. Я этот комментарий оставил больше для того чтобы указать что есть кроссплатформенный удобный инструмент для запуска различных моделей, в котором уже позаботились о всех инфраструктурных проблемах типа выбрать бэкенд, скачать его, скачать модель, выбрать нужный бэкенд и т.д. плюс есть сразу чат, куча крутилок для настройки, возможность работы по апи

evgensoft 30 янв в 15:19

можно просто скачать готовый бинарник из релизов llama - https://github.com/ggerganov/llama.cpp/releases
и скачать саму модель по вкусу - https://huggingface.co/models?library=gguf&sort=trending
и запустить llama-server -m НАЗВАНИЕ_ФАЙЛА_МОДЕЛИ.gguf - по адресу http://127.0.0.1:8080/ запускается интерфейс отдаленно похожий на ChatGPT - можно пообщаться с моделью

3aBulon 30 янв в 09:27

И статью написать практическую, именно мануал, как что когда и почему.

AndreyDmitriev 30 янв в 10:28

Да, конечно, я задокоментирую все шаги и грабли на которые наступлю. Напишу (если паззл сложится, либо до меня кто-нибудь не напишет).

capfsb 30 янв в 13:34

Если не будете писать статью, отпишитесь тут пожалуйста что в итоге получилось, очень интересно тоже!

SpencerTauRus 30 янв в 15:19

Ждём тестов! LM studio и в путь!

AndreyDmitriev 6 фев в 14:23

Я написал. Правда, LM Studio "не зашла", но c llama.cpp всё получилось.

SlavikF 30 янв в 19:08

У меня 2 * Xeon Gold 5218.

Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.

Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.

Получил около 2 токенов в секунду:

- response_token/s: 1.9

- prompt_token/s: 3.8 - 5

Работает. Но с такой скоростью оно не надо.

У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.

bezdnacom 30 янв в 19:12

DDR4 это грустно, хотя бы DDR5 надо

Devastator82 1 фев в 16:11

это смотря с чем сравнивать. Прирост скорости ddr5 в пике до двух раз, при стоимости от двух раз. Если у человека на ддр4 около двух токенов в секунду, стало бы 4, может даже 5. Но стоимость сетапа выросла бы раза в 3-4. И при этом осталась бы не впечатляющей. Теоретически, можно собрать 6,5 ферм по 12 карт p102-100 с 10гб ддр5х каждая. На таком объеме карт их можно выкупить у майнеров по 3,5-4 тысячи рублей каждая. 78х4 = 312к на карты. И еще около 10к на обвязку одной фермы. Итого 382к. А по факту, до 350к уложитесь, т.е. менее 3,5к$. Из минусов - под стол такое не засунешь. Потребление электричества около 20кВт, в квартире не запустишь. При стоимости электричества в районе 6 руб/квт суточный расход 2900. Т.е. около 30$. Ну и плюс охлаждение И так далее. ТЕЕОРЕТИЧЕСКАЯ пропускная способность около 50 токенов/секунда. Целесообразность данного решения вызывает вопросы

Ravius 30 янв в 19:22

Там ещё контекст если будет большим - то вообще забей. На реддите тоже все уже сделали. CpU - слишком медленный, а самое худшее - он генерирует "мысли", а не ответ. Ответа фиг дождёшься. Если бы сразу ответ с 2 токена в секунду- медленно, но можно прикольные штуки придумать.

SlavikF 30 янв в 19:29

Да, DeepSeek R1 "мыслит".

А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.

heejew 31 янв в 02:16

Я немного не в тему, но мне интересно, может причина есть. А почему на таком то железе стоит не линукс?) Просто в моем понимании с ним больше возможностей зачастую, не говоря уж о том, что можно гипервизор запустить и разных виртуалок, в т.ч. Винду ( можно прикинуть ГПУ, но это уже сомнительно ).. Да и нечасто вижу на таких мощностях Винду в целом.

ki11j0y 31 янв в 05:20

Такое железо используется не только для сервером и виртуализации, вспомните mac терку от Apple на 2 тб озу, некоторые рабочие приложения существуют только под win и требуют коллосальных ресурсов

AndreyDmitriev 31 янв в 09:26

Как пример — компьютер в составе некой рентгеновской установки, которая иследует некие быстротекущие процессы, там четыре 1К камеры (16 бит, оттенки серого), они через систему зеркал смотрят на объект и делают съёмку на 12800 кадров в секунду. У каждой камеры 128 ГБ памяти на борту, они её забивают за несколько секунд экспериметна (синхронизация на FPGA), затем по 10Гбит в четыре канала полтерабайта сырых данных сгружаются на компьютер, мне надо сделать геометрическую коррекцию из-за дисторсии объективов, затем Flat Field коррекцию из-за неравномерности рентгена и виньетирования, склеить все четыре картинки безшовно, потом убрать битые пикселы, там где рентген пробил до матрицы, всё это максимально быстро, паралллельно с разгрузкой камер, вот откуда там терабайт оперативки и полсотни ядер, несколько минут ревут вентиляторы и готов мультистраничный TIFF со стеком картинок. Основа там на LabVIEW, довольно навороченный GUI, ядро обработки - Intel IPP/OpenCV/NI VDM и несколько самописных библиотек c интринсинками, чтоб AVX2 на всю катушку использовать. Линукс тут больших преимуществ не даст.

MrCrooK 30 янв в 14:24

А как насчёт того , что для модели завялено только 37 миллиард активных параметров из всех 670. Это разве не означает , что для работы запуска на gpu будет достаточно чуть больше 40 гиг vram? Или это как то иначе работает?

took_the_lead 30 янв в 14:57

Не означает, 37 млрд активных параметров означает что работает одновременно только часть экспертов, при этом вся модель должна быть в памяти.

Ritan 30 янв в 16:46

Интересно, возможно ли как-то в процессе запроса определить какая часть нужна и предварительно загрузить её в память. Теоретически могло бы позволить запускать с приличной скоростью гораздо бОльшие модели

bezdnacom 30 янв в 16:58

Уже так и делают, на GPU лежат "активные эксперты", остальные в RAM

bezdnacom 30 янв в 16:57

Да, в обычной RAM. VRAM нужно от 40Гб

Vcoderlab 30 янв в 16:27

всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу

Судя по "кпу сетапу", это либо машинный перевод, либо статья и вовсе сгенерирована нейросеткой. Но в любом случае текст не вычитан перед отправкой. что есть неуважение к читателям.

Swordman85 30 янв в 17:06

6к, конечно не 100к, но это явно не для всех. Притом даже на этой сборке работать будет не так быстро. Нишевое решение исключительно того кто итак знает зачем ему это нужно.

zandernachtsohn 30 янв в 18:09

Сперва реклама блока питания с выводом "собран качественно, но проводов в комплекте нет", теперь вот это вот.

Может вместе с хабр фрилансом еще и сам хабр закроете, пусть останется в памяти чем-то стоящим, а не рекламной площадкой телеграмм-каналов.

SlavikF 30 янв в 19:16

2 процессора - это зря.

Для LLM - 1 процессор работает лучше, чем 2.

Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.

Oldju 30 янв в 19:46

Плюс поставить не могу. Извини. Есть все шансы, что там все загрузится куда попало. Если специально софт не написан под многопроцессорные системы. И вся эта хубала будет тормозить от перекрестных запросов на все деньги :).

Moog_Prodigy 31 янв в 18:39

Совершенно верно, мало того - даже один процессор 12core 24 thread загружен примерно процентов на 60. Все из-за скорости памяти.

Shannon 1 фев в 13:12

Не из-за памяти. Магия hyper-threading, которая из 12 ядер делает 24 потока, работает только на разнородных задачах, отсюда и загрузка в 50% от настоящих ядер + 10% на фоновую работу винды, браузера и т.д.

Смысл HT в том, что если одна задача занимает avx блоки, то остальные блоки остаются свободными для других задач, и можно в теории немного выиграть в производительности, если заранее эти блоки заполнить информацией, а потом ядро быстренько это посчитает. В такой схеме не растет теплопакет, так как тактов у ядра больше не становится, такты всё равно будут делится между этими блоками.

При этом загрузка может показываться в 100%, но выигрыш будет лишь небольшой, не в 2 раза, в реальности это от силы 18% если повезет с задачами. Поэтому только реальные ядра могут дать кратный буст.

Инференс это задача для avx блоков, выполнением занимаются только настоящие ядра, поэтому добавление сюда фейковых логических ядер обычно замедляет работу, а не ускоряет. Частым советом и в llm среде и в гейминг среде отключить HT/SMT и посмотреть, выросла ли производительность.

RoboticsIII 2 фев в 09:45

Скорость озу удваивается при двухсокетном решении, нет? Знаю про NUMA особенности, но все же???

Oldju 30 янв в 19:30

Хоспаде. Человек не знает, что в двухпроцессорных системах при обращении одного процессора к памяти на канале другого процессора идёт задержка. И весь этот конфиг может жутко тормозить при перекрестных запросах при всех забитых слотах памяти и полной загрузке. Поржал. Спасибо. Особенно если софт не оптимизирован на многопроцессорные системы. В ИИ же после работы в такси и двухмесячных курсов вкатиться можно :).

Для мамкиных сисадминов (или ИИ специалистов, я не знаю, как сейчас модно:)). Один проц. И смотрите в сторону адаптеров NVME для слотов PCI-E. Больше шансов что система не будет глухо тормозить при полной загрузке.

Oldju 17 фев в 21:40

Для позже читающих. Есть ещё например Gigabyte I-RAM. Оперативки в PCI-E слоте. На норм сервере можете забить оперативной +72 Гб ddr4 на слот. 3.8 Гб/с. Рандомного чтения. Это все равно лучше для любого решения требующего много оперативы, чем оператива на втором проце.

Sergey_pc 30 янв в 19:51

24 канала DDR5 памяти

24 слота ≠ 24 каналам. Их там всего 12. Оперативки можно и 12 планок поставить, чтобы дать максимальную пропускную способность. От 24 быстрее не будет.

SlavikF 30 янв в 19:54

Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.

Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.

nort1 31 янв в 00:44

А зачем так дорого? Мать с двумя сокетами lga2011 и 24 слота ddr3 - 9к деревянных на алиэкспресс. Добавить туда парочку xeon 2697v2(~2,5к) и 24 планочки 32 гб по ~1,5к каждая... Туда же в кучу какой-нить обоссаный БП и корпус с авито за пару рублей. Итого бюджет $500, а скорость инференса, с высокой долей вероятности, на сравнимом уровне 🙂

heejew 31 янв в 04:29

Вот как раз в скорости инференса и проблема то. Нет, не на сравнимом уровне вообще, к чему эти вероятности) Все упирается ровно в fsb, в пропускную способность памяти. У вас только по сухим цифрам разница будет раз так в 5-6 (ну кстати, почти пропорционально разнице затрат), и это как минимум, потому что я не учитываю ещё всякую мелочь в виде отсутствия неких важных isa в CPU, которые дают буст на актуальных поколениях, и ещё может быть чего

Devastator82 1 фев в 16:18

Методом интерполяции можно предположить, что ddr3 даст половину скорости ddr4, т.е. около 1т/с, что прям совсем не весело

EriIaz 31 янв в 05:10

всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу.

Как я понял, в экспертах V3 и R1 нет повторяющихся слоёв, как у Mixtral, но помимо 256 переменных экспертов, всегда есть один постоянный. Если этого постоянного эксперта выгрузить в GPU, прирост производительности должен быть существенно выше среднего. Хотя в абсолютном выражении он все равно, наверное, небольшой.

weerf 2 фев в 09:47

Взял себе как раз схожую конфигурацию год назад.

Только не на 5м поколении epyc. А четвертом. Один 9654 + 12*16 ГБ памяти. Вертушки действительно шумные у кулера coolserver. Только тихие кулеры пошли на выброс. Матплата supermicro h13ssl думает, что их раскрутить не может. И постоянно идёт старт-стоп. В итоге оставил шумные, но они на двух шариковых подшипниках. На запуске машины шумят минуту. Пока bios и ipmi грузятся. Потом Ubuntu 24 грузится 2-4 секунды. И становится тихо. Нейронки нагрузки не создают. И полной раскрутки вентиляторов нет.

С памятью беда. На Авито, в магазинах DDR5 4800 Registered постоянно попадалась битая. Я ей заранее затарился. И не от всей битой памяти смог избавиться. Hynix выкинул. Причем даже в магазинах на веру принимали, что память не рабочая. Им тестировать негде. И запасы 2-4 штуки. В итоге брал только Samsung. И то последовательно. Спасло то, что можно 2,4,6,8,10 каналов поставить. И работало.

Windows, кстати, поднять я на нем так и не смог. Купил ключ. Вроде подходящий. Но не стартовала. Убил два дня. И решил, что убунты достаточно.

А нейронки тут да. Понял, что всё что быстрее 15 токенов в секунду воспринимается нормально.

Но я достаточно наигрался с битыми весами. И в низкий квант не верю. Поэтому запускать R1 не буду. Тем более, что памяти всего 192 ГБ. Дистиляты смотрел. С ними что-то не так. Оригинальный qwen в разы лучше.

RoboticsIII 2 фев в 09:55

H12ssl-i + 7282 винда работает.

Shannon 2 фев в 13:31

И в низкий квант не верю. Поэтому запускать R1 не буду.

В обычный низкий квант да, но есть динамический низкий квант.

Но даже так, у не основных экспертов, главные веса Внимания оставлены на Q4 и Q6:

mhuruuk 2 фев в 09:48

Моделировал и изучал подобные сборки. где-то вычитал что у процессоров Epyc хоть и выше скорость памяти, но ниже отклик (или что-то в этом духе). недавно читал здесь статью, где в комментариях делились показателями токен/с и у более слабых сборках на Xeon имеющих меньшую пропускную способность и частоту памяти, результаты были лучше, чем у чипов AMD. Т.ч. если планируете такую сборку, советую изучить этот аспект более внимательно.

took_the_lead 2 фев в 09:59

я думаю всё же такую сборку стоит воспринимать как PoC, нежели как платформу с возможностью для ежедневного использования, пока лучше GPU ничего не придумано, но там нужен другой бюджет.

RoboticsIII 6 фев в 22:40

Дешёвая сборка это xeon 8890v4 с 1.5тб ОЗУ. 2000$

Погуглить, и выясните что оно может в 1.5 токена в секунду при использовании оригинального deepseek 671b

Stepyon 2 фев в 09:58

Спасибо за обзор подходящего железа для запуска полной модели, а те кто требует подробного туториала о том как запускать LLM наверное не понимают что там пара элементарных шагов на три минуты. Пришлось оформить короткий туториал о том как можно хостить LLM даже на Raspberry Pi.

https://diycraic.com/2025/01/29/how-to-host-deepseek-locally-on-a-docker-home-server/

Lissanro 14 мая в 00:35

Вообще-то требования к процессору довольно высоки, не стоит думать, будто бы только от пропускной способности памяти всё зависит. Например, EPYC 7763 с 64 ядрами становится ограничением первее, чем восьмиканальная DDR4 3200MHz память. Кроме того, двухсокетовая конфигурация не даст двойного прироста даже близко - лучше взять односокетувую с более производительным процессором за те же деньги.

DDR5 в несколько раз дороже и может себя не раскрыть полностью без мощного процессора, так что стоит брать только если есть много лишних денег на всё сразу, и на процессоры, и DDR5, и видеокарты. Иначе может оказаться, что EPYC с DDR4 и хотя 3090 картами будет производительнее, да и более универсален для разных AI моделей.

Кстати, для CPU+GPU хорошая идея использовать ik_llama.cpp. Например, я с EPYC 7763 и 3090 видеокартами получаю 8 токенов в секунду с UD-Q4_K_XL квантом, больше, если сделать свой оптимизированный под ik_llama.cpp квант.

Ещё можно выиграть производительность, если использовать новую модель DeepSeek R1T Chimera вместо старой R1, так как она тоже может думать ничуть менее эффективно, но тратит при этом на 40% меньше токенов в среднем, менее склонна к зацикливанию, да и в целом пишет лучше.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий