mukca 7 фев в 08:15

Запускаем DeepSeek-R1 на обычном сервере с 768Гб ОЗУ в LM-Studio

Простой

5 мин

10K

Искусственный интеллектМашинное обучение *

Из песочницы

Комментарии 28

Закреплённые комментарии

mukca 7 фев в 11:09

Так сказать из за спортивного интереса и в ответ на статью где за 6000$ собрали сервер по картинкам в интернете и запустили на нем модель :)

Что было под рукой, на том и запустил :)
Специально готовить сервер к тому что небудет в эксплуатации по моему глупо? Учитывая что результат заведомо известный.
Статья была пару дней в песочнице

Negat1v9 7 фев в 08:34

обычном сервере с 768Гб ОЗУ

Да ладно вам), это не обычный сервер, так, начального уровня :)

mukca 7 фев в 11:06

да у каждого есть, просто обязан быть

Akuma 7 фев в 15:46

RAM-диск под торренты для вас шутка какая-то?

mukca 7 фев в 16:21

зачем ram диск когда есть схд NetApp :)

JohnGear 7 фев в 08:52

Пойду посмотрю не завалялся у меня случаем в кладовке лишний Intel Xeon Gold 6226R, да тоже может разверну какую нейросеть

mukca 7 фев в 11:14

есть ссылка на али :)

mukca 7 фев в 11:14

Ну для домашних пользователей можно поискать на али

rPman 7 фев в 09:13

Зачем виртуализация то? вы отняли у себя до 35% производительности в самом нужном месте - в числодробилках. Настоятельно рекомендую повторить тест на bare metall. Так же настоятельно рекомендую поиграть с настройками количества потоков (cpu thread pool), llama.cpp работает лучше, если либо гипертреадинг отключен либо количество потоков совпадает с количеством физических ядер.

positroid 7 фев в 09:30

Буквально вчера была аналогичная статья https://habr.com/ru/articles/879846/ с отключением гипертрейдинга и llama.cpp, ускорение, конечно, есть, но дальше единиц токенов генерации без GPU как будто все равно не уедешь.

Alex-Freeman 7 фев в 09:49

На паре EPYC с DDR5 4-5 т/с можно получить, но стоимость будет существенно выше, но дешевле чем на ускорителях.

На досуге считал, мать с $1,5 - 2к, cpu 2 x $1500, ram 64gb ~ $300 за штуку для 768 - $3600. Итого примерно $10к. Можно взять cpu подешевле, но это так себе идея. И памяти конечно нужно не 768, а с запасом хотя бы 1ТБ

igrblkv 7 фев в 10:41

Получается, миниСуперПК от нВидиа Project Digits за три килобакса выгоднее, чем самому собирать?

Alex-Freeman 7 фев в 11:08

Совершенно непонятно какая там будет реальная производительность этого GB10 Пока не будет реальных тестов, смысла нет, что то предполагать. Производительность указана только для FP4, а фраза до 1 петафлопс, предполагает ооочень широкий диапазон. И там всего 128 гб памяти.

mukca 7 фев в 11:11

пойди к соседу майнеру, возми пачку ригов с видеокартами, это проще :D

mukca 7 фев в 11:23

Вопрос стоит ли? думаю даже увелечение скорости памяти в два раза (с 180GB/s до 360GB/s а два сокета по 4 кана выдадут столько?>) сильно не увеличит производительность.

У меня во время теста полность загружался один проц, думаю будеть упор в цпу или рядом

Alex-Freeman 7 фев в 13:54

Два эпика по 12 каналов сильно больше выдают с DDR5, чуть меньше 3 тб/с, думаю по факту будет 10+ токенов.

Кстати откуда скорость 180GB/s? В реальности 180 GB/s будет на 12 каналах.

mukca 7 фев в 16:14

ну вот тест с одного из тех серверов (физически другой сервер, но модель одна и таже) где я в виртуалке запустил модель.
Только небольшое "но", этот тест сделан из под livecd без каких либо драйверов...
да 12 каналов, по 6 каналов на процессор (я почемуто досих пор считал чтоу меня на голадх по 4 канала :D скриншоты делал, а не вчитывался..)
Если на эпиках по 12 каналов, там колько под терабайт в секунду будет?
На скриншоте у вас вроде 3 гига, а пишите под 3 терабайта. Если действительно 3 ТБ/с, то это уже впринципе наверное ошутимо модель работать будет, дело в том хватит ли процессора.

Alex-Freeman 7 фев в 17:00

Кстати, вы правы, тест какую-то чушь показывает, скрин был честно украден из статьи, также как и ваш)). Сейчас посчитал, скорость приблизительно должна быть 1,5 ТБ/с

При 180 ГБ/с у автора той статьи был один токен/с если правильно помню, то на паре эпиков (если справедлива линейная экстраполяция) получится 8 - 10 токенов/с

mukca 7 фев в 19:44

Не мой выше скрин это мой скрин только с другого сервера (в этом же кластере), и сделанный вчера, а не в момент написания статьи.
И в статье все скрины мои, честно сделанные в момент написания статьи

mukca 7 фев в 11:11

тут виртуализация по факту не так много сьедает, разница с карточками колоссальная так что впринципе оно того не стоит..

mukca 7 фев в 11:09

itshnick88 10 фев в 02:18

Прикольно) Мы от Бреста ушли в пользу Альт виртуализации. Недавно тоже продавил закупку кучи плашек памяти для нод, которые вот-вот только разворачиваются. В теории, можно было бы тоже такую хреньку замутить, но на моей работе этого не поймут, так что был рад почитать вашу статью) Сам пользуюсь qwen (не локальной конечно же!), мне нравится, часто помогает

mukca 12 фев в 04:09

"импортозамещение" оно такое

fishan 10 фев в 04:57

зачем вообще VM ? да еще и полуобморочный виндовс, смех. из нормального сервера калькулятор получился.

mukca 12 фев в 04:09

статью прочитали? там же сказано

а закрепленный комментарий?

Devastator82 10 фев в 17:03

Спасибо за статью, было интересно! Возможно, смогу заполучить риг на 80гб видеопамяти, если заполучу - тоже потестирую.

iAVKi 10 фев в 17:32

Зачем вообще на процессоре запускать нейросеть? У неё же другая архитектура вычислений.

rPman 10 фев в 19:51

потому что стоимость решения на пару порядков ниже может получиться (конечно не про вариант из статьи),.. а потеря производительности упадет на порядок.

mukca 12 фев в 04:11

потомучто можно, а так да, бессмысленно.
еще раз статью побудило написать другая статья где автор толком ничего не запустил, но посчитал бюджет :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий