Как стать автором
Обновить

Комментарии 69

ЗакрепленныеЗакреплённые комментарии

И в низкий квант не верю. Поэтому запускать R1 не буду.

В обычный низкий квант да, но есть динамический низкий квант.

Обычный низкий квант, вроде IQ1_M, это почти все веса, включая веса Внимания и Feed-Forward Network, часть необходимая для работы Внимания, почти все они в очень низком кванте. Именно это снижает возможности модели "мыслить" и рассуждать, в итоге в ответ получается очень не качественные ответы, так как затронута главная часть трансформера. Вот так выглядят веса обычного экстремально низкого кванта:

пример очень низкого кванта DeepSeek-R1-Distill-Llama-70B-IQ1_M
пример очень низкого кванта DeepSeek-R1-Distill-Llama-70B-IQ1_M

В динамическом очень низком кванте UD, который собрал unsloth, все важные веса оставлены на уровне Q4 или Q6, поэтому главная часть модели по сути на уровне Q4_K_M.

пример динамического квантования DeepSeek-R1-UD-IQ1_S
пример динамического квантования DeepSeek-R1-UD-IQ1_S

Остальные веса в экстремально низком кванте IQ1 и IQ2, но это в основном только нисходящие и восходящие веса ffn не главных экспертов, а также веса переходов между экспертами, что не так фатально сказывается на возможности модели рассуждать и "мыслить". При этом эти же веса главного эксперта (в MoE множество экспертов, но в моменте активны только часть из них) оставлены на Q4 и Q6, что тоже видно на скриншоте выше.

Но даже так, у не основных экспертов, главные веса Внимания оставлены на Q4 и Q6:

Пример не основных экспертов
Пример не основных экспертов

Так что динамический низкий квант не тоже самое, что просто низкий квант, и его вполне можно попробовать. Особенно в ваше случае, когда в 192гб можно попробовать уместить UD-IQ2_XXS (только тут главное не перепутать с обычным Q2).

Вот я запускал DeepSeek-R1-UD-IQ1_S на обычном ПК ryzen 5600g + 64gb ddr4 3600 + nvme на скорости 0.82 t/s. То что не влезло в память, загружалось с ssd.
Пример простой, но не каждая модель может правильно решить эту простую головоломку. И обычно на таком низком кванте язык превращается в кашу, а мысли путаются, тут же рассуждения остаются на приемлемом уровне. И это на самом низком динамическом кванте, если чуть повыше, то будет еще лучше.

Это называетс теперь "туториал" ????
Аффтар (простите как его еще назвать?) не сделал ничего кроме как надергал картинок из интернета, как кто-то друго собирал (а может и не собирал?) железо ...

Звчем эта "статья" вообще?
Ах да, телеграманал ...

Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды. Может можете показать пример эталонного туториала, написанного Ваши лично? Нет? Ах да, вы же не писали никогда ни одной статьи, но много комментируете, молодец!

>Ах да, вы же не писали никогда ни одной статьи
Конечно, лучше жевать чем писать такие статьи, да и телеграмканала у меня нет, нечего рекламировать

А что бы отличать плохие статьи от хороших, мне не нужно писать свои

>Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды. 

Этот, прости гпоспАди, "туториал" имел бы смысл если б Вы сами собрали сервер и поделились сложностми которые возникли ) Но Вы этого конечно не сделали, я уверен даже не проверили совместимость комплектующих, просто перепечатали из оригинального поста (я его не читал - там надо регестрироватьсяа мне уже который год лениво)
Ну а вопросы "почему такая железка выбрана а не другая" заботливо оставлены на самостоятельнуж проработку ) "Туториал", блин )

Идея была в том, чтобы оперативно донести до сообщества свежую (полезную) информацию из зарубежных источников. Наливать воды для повышения плотности поста, простите, нет желания. Что касается самому собрать сервер - для моих задач пока этого не требуется, хотя идея интересная была бы в практическом аспекте в том числе. Донесена основная идея о том, что можно запустить СОТА модель без ГПУ, за счет многопоточности и большущей РАМ. На оригинальность не претендую.

Так вы не собрали что ли этот сервер? Это как зарелизить фичу не протестировав ее. Как вы убедились в достоверности вашего "туториала"?

Данную сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагаю. Но запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, той же llama.cpp и всё хорошо работало, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

А не считал сколько на каких-нибудь бу проф видяхах с Авито обойдется? Имеет какой-нибудь смысл?

Смиритесь, таково будущее загнивающего хабра. Ниочемные статейки, которые раньше даже на гиктаймсе бы заминусовали, бесконечная реклама телеграмм-каналов и медленная и мучительная смерть.

Сколько лет пророчат хабру скорую смерть или даже констатируют её? Мне кажется, 3/4 моего пребывания здесь.

Запускал сегодня huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated на ollama с GPU в docker, интерфейс через open-webui. Около 3-4 токенов/сек на r9 5900x с rtx 2070s.
Поиграться Интересная модель для тестирования, но работает удовлетворительно лишь на английском, вероятно, из-за своего размера. Жаль, что в статье нет практических тестов — только пересказ теории из Twitter.

Идея для вас, автор: я тратить деньги не планирую, но ради статьи вы могли бы протестировать полноразмерную модель на 8xH100 от Nvidia. У DigitalOcean есть неплохое предложение ~$23/час.

А если серьезно, то с учетом стоимости API экономический смысл локального запуска модели для большинства задач отсутствует. Единственное, что действительно вызывает беспокойство, — их подход к безопасности. Судя по всему, сервисы они разрабатывают при помощи собственной AI модели.

P.S. В видео, в отличие от оригинала из Twitter, практически ничего не разобрать.

Спасибо за дельный комментарий, видео перезалил на вимео. Всё же дистиль и оригинальная ризонинг модель это разные вещи. Я достаточно тестировал эту модель еще до хайпа на сайте chat.deepseek.com и на poe.com. В посте по этому "конкурировать" с решениями от OpenAI взято в кавычки. Использую в основном в кодинге, как альтернативное OpenAI o1 мнение - хороший кейс. Экономический смысл есть, с учетом последних кейсов их утечки всех чатов https://habr.com/ru/news/877806/.

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

Статью не читал, но за заголовок спасибо. А то уже натыкался на что-то вроде "Как запустить Dick Sick локально на своём компьютере", а потом оказывается, что на моём ноуте, которого для работы хватает выше крыши, можно запустить только самую усечённую версию, и ждать ответов по несколько минут.

Все же выгрузка части слоев на гпу даёт пропорциональный буст. В эту сборку уже не будет смысла ставить р40, т. к псп врам 350 гб/с, что сопоставимо со скоростью озу. Но вот 3090 даёт под терабайт/с. И соответственно выгруженные слои будут шевелиться в 3 раза быстрее.

Судя по всему нужно пропорционально делить нагрузку при инференсе, а в текущем случае даже х2 4090 скорее всего не дадут практически никакой пользы при таких соотношениях. Ускорение будет зависеть от того, насколько эффективно llama.cpp распределяет работу между CPU и GPU. Если большая часть модели остаётся в RAM, то прирост будет скромным.

А автор сам проверял?

Я не уверен, но слышал, что хоть запустить на обычной оперативке и процессоре можно, но работать будет на порядок медленнее.

Автор к сожалению сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагает. Но автор запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

У меня под столом есть вот такая машинка, на Хeon 6132 c WX9100 (там 16 ГБ всего):

768 ГБ памяти, вот бенчмарк:

По дискам там четыре NVMe SSD терабайтных, вот такие, их можно в рейд объединить:

Имеет смысл сделать подход к снаряду на таком железе, или эта конфигурация слабовата?

Имеет смысл, у вас железо есть, скачать и настроить это не очень сложно. Зато хоть реальный отзыв будет с замерами скорости.

ОК, я глянул инструкцию по сборке, там вроде из Visual Studio 2022 собрать всё можно, даже операционку переставлять не придётся, сейчас там десятка. "просто" не всегда бывает, я в конце прошлого года упражнялся с FastSD CPU, напрыгался с версиями знатно. Ладно, попробую выкачать это дело на выходных, на работе мне 503 прилетает:

D:\DeepSeek\DeepSeek-R1-GGUF>git sparse-checkout set --no-cone /DeepSeek-R1-Q8_0
Downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (48 GB)
Error downloading object: DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (8917f4d): Smudge error: Error downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (...): Fatal error: Server error: https://cdn-lfs-us-1.hf.co/repos... HTTP 503

Вам не нужно ничего собирать руками. Советую скачать тул LM Studio в котором все делается через gui в том числе и скачивание любых моделей с hugging face. В нем же реализована загрузка бэкендов, проверка совместимости, куча ручек для управления настройками и т д. Консольный решим тоже есть

Спасибо огромное, посмотрю тоже, ни разу не пользовался.

Конкретно для скачивания моделей не сильно помогает, так как у меня очень злобный админ:

Да и формально, для использования на работе там надо форму заполнить. Но дома гляну. Собрать руками тоже попробую, я в общих чертах понимаю как это работает, а вот детально в код никогда не заглядывал.

Там Ollama, этот проект вроде как основан на llama.cpp. Кстати, я посмотрел, в релизах llama.cpp тоже есть билд под Windows (по посту выше я думал там только исходники), причём собранный в разных конфигурациях, типа AVX2 или AVX512, так что собирать ничего и не нужно (я в обеденный перерыв попробовал навскидку, с полпинка не завелось, cmake сыпет ошибками). В первом приближении надо просто посмотреть. что можно получить на машинке, что у меня есть, надо только модель скачать.

Конкретно полный deepseek я не ставил, т.к. некуда, но дистиллированные модели гоняю в LM Studio давно уже. Я этот комментарий оставил больше для того чтобы указать что есть кроссплатформенный удобный инструмент для запуска различных моделей, в котором уже позаботились о всех инфраструктурных проблемах типа выбрать бэкенд, скачать его, скачать модель, выбрать нужный бэкенд и т.д. плюс есть сразу чат, куча крутилок для настройки, возможность работы по апи

можно просто скачать готовый бинарник из релизов llama - https://github.com/ggerganov/llama.cpp/releases
и скачать саму модель по вкусу - https://huggingface.co/models?library=gguf&sort=trending
и запустить llama-server -m НАЗВАНИЕ_ФАЙЛА_МОДЕЛИ.gguf - по адресу http://127.0.0.1:8080/ запускается интерфейс отдаленно похожий на ChatGPT - можно пообщаться с моделью

Да, конечно, я задокоментирую все шаги и грабли на которые наступлю. Напишу (если паззл сложится, либо до меня кто-нибудь не напишет).

Если не будете писать статью, отпишитесь тут пожалуйста что в итоге получилось, очень интересно тоже!

У меня 2 * Xeon Gold 5218.

Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.

Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.

Получил около 2 токенов в секунду:

- response_token/s: 1.9

- prompt_token/s: 3.8 - 5

Работает. Но с такой скоростью оно не надо.

У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.

это смотря с чем сравнивать. Прирост скорости ddr5 в пике до двух раз, при стоимости от двух раз. Если у человека на ддр4 около двух токенов в секунду, стало бы 4, может даже 5. Но стоимость сетапа выросла бы раза в 3-4. И при этом осталась бы не впечатляющей. Теоретически, можно собрать 6,5 ферм по 12 карт p102-100 с 10гб ддр5х каждая. На таком объеме карт их можно выкупить у майнеров по 3,5-4 тысячи рублей каждая. 78х4 = 312к на карты. И еще около 10к на обвязку одной фермы. Итого 382к. А по факту, до 350к уложитесь, т.е. менее 3,5к$. Из минусов - под стол такое не засунешь. Потребление электричества около 20кВт, в квартире не запустишь. При стоимости электричества в районе 6 руб/квт суточный расход 2900. Т.е. около 30$. Ну и плюс охлаждение И так далее. ТЕЕОРЕТИЧЕСКАЯ пропускная способность около 50 токенов/секунда. Целесообразность данного решения вызывает вопросы

Там ещё контекст если будет большим - то вообще забей. На реддите тоже все уже сделали. CpU - слишком медленный, а самое худшее - он генерирует "мысли", а не ответ. Ответа фиг дождёшься. Если бы сразу ответ с 2 токена в секунду- медленно, но можно прикольные штуки придумать.

Я немного не в тему, но мне интересно, может причина есть. А почему на таком то железе стоит не линукс?) Просто в моем понимании с ним больше возможностей зачастую, не говоря уж о том, что можно гипервизор запустить и разных виртуалок, в т.ч. Винду ( можно прикинуть ГПУ, но это уже сомнительно ).. Да и нечасто вижу на таких мощностях Винду в целом.

Такое железо используется не только для сервером и виртуализации, вспомните mac терку от Apple на 2 тб озу, некоторые рабочие приложения существуют только под win и требуют коллосальных ресурсов

Как пример — компьютер в составе некой рентгеновской установки, которая иследует некие быстротекущие процессы, там четыре 1К камеры (16 бит, оттенки серого), они через систему зеркал смотрят на объект и делают съёмку на 12800 кадров в секунду. У каждой камеры 128 ГБ памяти на борту, они её забивают за несколько секунд экспериметна (синхронизация на FPGA), затем по 10Гбит в четыре канала полтерабайта сырых данных сгружаются на компьютер, мне надо сделать геометрическую коррекцию из-за дисторсии объективов, затем Flat Field коррекцию из-за неравномерности рентгена и виньетирования, склеить все четыре картинки безшовно, потом убрать битые пикселы, там где рентген пробил до матрицы, всё это максимально быстро, паралллельно с разгрузкой камер, вот откуда там терабайт оперативки и полсотни ядер, несколько минут ревут вентиляторы и готов мультистраничный TIFF со стеком картинок. Основа там на LabVIEW, довольно навороченный GUI, ядро обработки - Intel IPP/OpenCV/NI VDM и несколько самописных библиотек c интринсинками, чтоб AVX2 на всю катушку использовать. Линукс тут больших преимуществ не даст.

А как насчёт того , что для модели завялено только 37 миллиард активных параметров из всех 670. Это разве не означает , что для работы запуска на gpu будет достаточно чуть больше 40 гиг vram? Или это как то иначе работает?

Не означает, 37 млрд активных параметров означает что работает одновременно только часть экспертов, при этом вся модель должна быть в памяти.

Интересно, возможно ли как-то в процессе запроса определить какая часть нужна и предварительно загрузить её в память. Теоретически могло бы позволить запускать с приличной скоростью гораздо бОльшие модели

всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу

Судя по "кпу сетапу", это либо машинный перевод, либо статья и вовсе сгенерирована нейросеткой. Но в любом случае текст не вычитан перед отправкой. что есть неуважение к читателям.

6к, конечно не 100к, но это явно не для всех. Притом даже на этой сборке работать будет не так быстро. Нишевое решение исключительно того кто итак знает зачем ему это нужно.

Сперва реклама блока питания с выводом "собран качественно, но проводов в комплекте нет", теперь вот это вот.

Может вместе с хабр фрилансом еще и сам хабр закроете, пусть останется в памяти чем-то стоящим, а не рекламной площадкой телеграмм-каналов.

2 процессора - это зря.

Для LLM - 1 процессор работает лучше, чем 2.

Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.

Плюс поставить не могу. Извини. Есть все шансы, что там все загрузится куда попало. Если специально софт не написан под многопроцессорные системы. И вся эта хубала будет тормозить от перекрестных запросов на все деньги :).

Совершенно верно, мало того - даже один процессор 12core 24 thread загружен примерно процентов на 60. Все из-за скорости памяти.

Не из-за памяти. Магия hyper-threading, которая из 12 ядер делает 24 потока, работает только на разнородных задачах, отсюда и загрузка в 50% от настоящих ядер + 10% на фоновую работу винды, браузера и т.д.

Смысл HT в том, что если одна задача занимает avx блоки, то остальные блоки остаются свободными для других задач, и можно в теории немного выиграть в производительности, если заранее эти блоки заполнить информацией, а потом ядро быстренько это посчитает. В такой схеме не растет теплопакет, так как тактов у ядра больше не становится, такты всё равно будут делится между этими блоками.

При этом загрузка может показываться в 100%, но выигрыш будет лишь небольшой, не в 2 раза, в реальности это от силы 18% если повезет с задачами. Поэтому только реальные ядра могут дать кратный буст.

Инференс это задача для avx блоков, выполнением занимаются только настоящие ядра, поэтому добавление сюда фейковых логических ядер обычно замедляет работу, а не ускоряет. Частым советом и в llm среде и в гейминг среде отключить HT/SMT и посмотреть, выросла ли производительность.

Скорость озу удваивается при двухсокетном решении, нет? Знаю про NUMA особенности, но все же???

Хоспаде. Человек не знает, что в двухпроцессорных системах при обращении одного процессора к памяти на канале другого процессора идёт задержка. И весь этот конфиг может жутко тормозить при перекрестных запросах при всех забитых слотах памяти и полной загрузке. Поржал. Спасибо. Особенно если софт не оптимизирован на многопроцессорные системы. В ИИ же после работы в такси и двухмесячных курсов вкатиться можно :).

Для мамкиных сисадминов (или ИИ специалистов, я не знаю, как сейчас модно:)). Один проц. И смотрите в сторону адаптеров NVME для слотов PCI-E. Больше шансов что система не будет глухо тормозить при полной загрузке.

Для позже читающих. Есть ещё например Gigabyte I-RAM. Оперативки в PCI-E слоте. На норм сервере можете забить оперативной +72 Гб ddr4 на слот. 3.8 Гб/с. Рандомного чтения. Это все равно лучше для любого решения требующего много оперативы, чем оператива на втором проце.

24 канала DDR5 памяти

24 слота ≠ 24 каналам. Их там всего 12. Оперативки можно и 12 планок поставить, чтобы дать максимальную пропускную способность. От 24 быстрее не будет.

Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.

Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.

А зачем так дорого? Мать с двумя сокетами lga2011 и 24 слота ddr3 - 9к деревянных на алиэкспресс. Добавить туда парочку xeon 2697v2(~2,5к) и 24 планочки 32 гб по ~1,5к каждая... Туда же в кучу какой-нить обоссаный БП и корпус с авито за пару рублей. Итого бюджет $500, а скорость инференса, с высокой долей вероятности, на сравнимом уровне 🙂

Вот как раз в скорости инференса и проблема то. Нет, не на сравнимом уровне вообще, к чему эти вероятности) Все упирается ровно в fsb, в пропускную способность памяти. У вас только по сухим цифрам разница будет раз так в 5-6 (ну кстати, почти пропорционально разнице затрат), и это как минимум, потому что я не учитываю ещё всякую мелочь в виде отсутствия неких важных isa в CPU, которые дают буст на актуальных поколениях, и ещё может быть чего

Методом интерполяции можно предположить, что ddr3 даст половину скорости ddr4, т.е. около 1т/с, что прям совсем не весело

всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу.

Как я понял, в экспертах V3 и R1 нет повторяющихся слоёв, как у Mixtral, но помимо 256 переменных экспертов, всегда есть один постоянный. Если этого постоянного эксперта выгрузить в GPU, прирост производительности должен быть существенно выше среднего. Хотя в абсолютном выражении он все равно, наверное, небольшой.

Взял себе как раз схожую конфигурацию год назад.

Только не на 5м поколении epyc. А четвертом. Один 9654 + 12*16 ГБ памяти. Вертушки действительно шумные у кулера coolserver. Только тихие кулеры пошли на выброс. Матплата supermicro h13ssl думает, что их раскрутить не может. И постоянно идёт старт-стоп. В итоге оставил шумные, но они на двух шариковых подшипниках. На запуске машины шумят минуту. Пока bios и ipmi грузятся. Потом Ubuntu 24 грузится 2-4 секунды. И становится тихо. Нейронки нагрузки не создают. И полной раскрутки вентиляторов нет.

С памятью беда. На Авито, в магазинах DDR5 4800 Registered постоянно попадалась битая. Я ей заранее затарился. И не от всей битой памяти смог избавиться. Hynix выкинул. Причем даже в магазинах на веру принимали, что память не рабочая. Им тестировать негде. И запасы 2-4 штуки. В итоге брал только Samsung. И то последовательно. Спасло то, что можно 2,4,6,8,10 каналов поставить. И работало.

Windows, кстати, поднять я на нем так и не смог. Купил ключ. Вроде подходящий. Но не стартовала. Убил два дня. И решил, что убунты достаточно.

А нейронки тут да. Понял, что всё что быстрее 15 токенов в секунду воспринимается нормально.

Но я достаточно наигрался с битыми весами. И в низкий квант не верю. Поэтому запускать R1 не буду. Тем более, что памяти всего 192 ГБ. Дистиляты смотрел. С ними что-то не так. Оригинальный qwen в разы лучше.

И в низкий квант не верю. Поэтому запускать R1 не буду.

В обычный низкий квант да, но есть динамический низкий квант.

Обычный низкий квант, вроде IQ1_M, это почти все веса, включая веса Внимания и Feed-Forward Network, часть необходимая для работы Внимания, почти все они в очень низком кванте. Именно это снижает возможности модели "мыслить" и рассуждать, в итоге в ответ получается очень не качественные ответы, так как затронута главная часть трансформера. Вот так выглядят веса обычного экстремально низкого кванта:

пример очень низкого кванта DeepSeek-R1-Distill-Llama-70B-IQ1_M
пример очень низкого кванта DeepSeek-R1-Distill-Llama-70B-IQ1_M

В динамическом очень низком кванте UD, который собрал unsloth, все важные веса оставлены на уровне Q4 или Q6, поэтому главная часть модели по сути на уровне Q4_K_M.

пример динамического квантования DeepSeek-R1-UD-IQ1_S
пример динамического квантования DeepSeek-R1-UD-IQ1_S

Остальные веса в экстремально низком кванте IQ1 и IQ2, но это в основном только нисходящие и восходящие веса ffn не главных экспертов, а также веса переходов между экспертами, что не так фатально сказывается на возможности модели рассуждать и "мыслить". При этом эти же веса главного эксперта (в MoE множество экспертов, но в моменте активны только часть из них) оставлены на Q4 и Q6, что тоже видно на скриншоте выше.

Но даже так, у не основных экспертов, главные веса Внимания оставлены на Q4 и Q6:

Пример не основных экспертов
Пример не основных экспертов

Так что динамический низкий квант не тоже самое, что просто низкий квант, и его вполне можно попробовать. Особенно в ваше случае, когда в 192гб можно попробовать уместить UD-IQ2_XXS (только тут главное не перепутать с обычным Q2).

Вот я запускал DeepSeek-R1-UD-IQ1_S на обычном ПК ryzen 5600g + 64gb ddr4 3600 + nvme на скорости 0.82 t/s. То что не влезло в память, загружалось с ssd.
Пример простой, но не каждая модель может правильно решить эту простую головоломку. И обычно на таком низком кванте язык превращается в кашу, а мысли путаются, тут же рассуждения остаются на приемлемом уровне. И это на самом низком динамическом кванте, если чуть повыше, то будет еще лучше.

Моделировал и изучал подобные сборки. где-то вычитал что у процессоров Epyc хоть и выше скорость памяти, но ниже отклик (или что-то в этом духе). недавно читал здесь статью, где в комментариях делились показателями токен/с и у более слабых сборках на Xeon имеющих меньшую пропускную способность и частоту памяти, результаты были лучше, чем у чипов AMD. Т.ч. если планируете такую сборку, советую изучить этот аспект более внимательно.

я думаю всё же такую сборку стоит воспринимать как PoC, нежели как платформу с возможностью для ежедневного использования, пока лучше GPU ничего не придумано, но там нужен другой бюджет.

Дешёвая сборка это xeon 8890v4 с 1.5тб ОЗУ. 2000$

Погуглить, и выясните что оно может в 1.5 токена в секунду при использовании оригинального deepseek 671b

Спасибо за обзор подходящего железа для запуска полной модели, а те кто требует подробного туториала о том как запускать LLM наверное не понимают что там пара элементарных шагов на три минуты. Пришлось оформить короткий туториал о том как можно хостить LLM даже на Raspberry Pi.

https://diycraic.com/2025/01/29/how-to-host-deepseek-locally-on-a-docker-home-server/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации