NeyroEntuziast Jan 31 at 08:53

Как сделать локальное развертывание DeepSeek. Пошаговое руководство для разработчиков

Medium

2 min

22K

Artificial IntelligenceThe future is here

Tutorial

Translation

Comments 15

Moog_Prodigy Jan 31 at 09:27

33b? На реддите уже извратились до запуска 685b с маппингом на NVME SSD и 127 gb ОЗУ. Без видеокарт и монструозных материнок.

GnuriaN Jan 31 at 09:37

Дай пожалуйста ссылку, что бы не тратить время на поиски. Спасибо!

Alex-Freeman Jan 31 at 09:49

Скорее всего имеется ввиду https://www.reddit.com/r/LocalLLaMA/comments/1idseqb/deepseek_r1_671b_over_2_toksec_without_gpu_on/

Он использовал Gen 5 NVMe накопители. А оперативку (96Gb) только под кэш. Нужно посмотреть сколько она RAM жрет и попробовать засунуть все в оперативку вместо SSD, а кеш в ускоритель и посмотреть, что получится. Думаю раз в 10 будет быстрее

dibu28 Feb 1 at 19:52

Ram вроде на 512GB запускают тут в соседней статье на 2х Epic'ах.

microArt Jan 31 at 09:56

А тут как сделали, интересно?

OpenAI's nightmare: Deepseek R1 on a Raspberry Pi.
https://www.youtube.com/watch?v=o1sN1lB76EA

dibu28 Feb 1 at 19:55

Там дистилят запускают 14B параметров на основе Qwen, это не полная модель.

gfiopl8 Jan 31 at 11:16

Всё гораздо проще. Устанавливаете ollama (есть гуй для виндоуса), запускаете нужную модельку https://ollama.com/library/deepseek-coder:33b используете через openai совместимый интерфейс.

LF69ssop Feb 1 at 05:50

С этой оламой что-то не так.

Запускаем ollama run deepseek-r1:1.5b и начинает какие-то смешные 1G качать бесконечно, вторые сутки пошли, занимательно то что ползунок прогресса то увеличивается то уменьшается, притом трафик показывает около 20Mbs.

Никогда такого не видел. На компе с дебианом в хетцнере скачал со свистом, но там нет видеокарты. А на домашнюю убунту-24 такие вот фокусы.

daroteya Feb 2 at 13:16

Тоже столкнулся с такой проблемой в начале, но олама тут не причём. Просто не нужно преключаться во время загрузки или если переключаешься то тыкни по окну powershell или нажми любую клавишу чтобы оно снова вернулось в повершел. Оно типо загружается на самом деле, просто в фоне или что то типо того

Alex-Freeman Jan 31 at 20:55

Тут анонс платформы Gigabyte прошел (https://habr.com/ru/companies/hostkey/articles/878364/), с 48 сокетами под RAM и пропускной способностью 2,7 ГБ, это конечно раз в 10 медленнее ускорителей, но за счет того что модель будет лежать в одном месте, получается почти в два раза быстрее, чем на кластере из 32 штук 4090 и гораздо дешевле.

GPU ( 32x RTX 4090):
INT8: ~1–5 токенов в секунду.
---
32x RTX 4090 - 48 000
минимум 8 серверов по 4 карты минимум 24 000$
---
~72 000 $
Если пересчитать с 12 * A6000, будет еще дороже
Про 10 А100/H100 даже писать страшно, там уже полмиллиона+ будет и это для INT8, для FP16 умножаем примерно на 3) Будет конечно быстрее чем в оперативке)