Comments / Profile of nsforth / Habr

Никита Староверов@nsforth

User

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

nsforth Nov 17 2025 at 12:10

На доступной мне машине есть еще 3 Tesla T4, в которых полностью умещается Coder-30B. Интересный возникает четвертый сценарий в дополнение к Вашему, толстая MoE только на CPU и драфтовая полегче на GPU.

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

nsforth Nov 16 2025 at 10:47

Сервера в аренду с двумя процессорами AMD epyc и большим объемом памяти, чтобы запускать такие LLM. Точная конфигурация и ее стоимость приведены в статье в разделе "Как собрать Inference-сервер на CPU"->"Как собрать конфигурацию"

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

nsforth Nov 16 2025 at 10:34

Резонно. Вот результаты из которых сделаны графики https://gist.github.com/nsforth/e4457bd4749c98eb28f980c67a870618

model-draft не проверял, ранее в других тестах не получал заметную разницу, поэтому не включал в тесты в этот раз.

Машину я вернул с тестов, есть под рукой односокетная с AMD EPYC 9754 128-Core Processor, могу на ней попробовать с draft и без.

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

nsforth Nov 16 2025 at 10:23

Каждый xGMI это 16 линий pcie 5.0, только с другим протоколом, но скорость та же.

Получается 64 линии по 32 гигабита, при стандартной конфигурации 4 линка xGMI.

Это теоретически до 2048 гигабит в каждую сторону (256 гигабайт/с), двусторонний линк 512 гигабайт/с. Об этом написано в вашей же ссылке ниже в разделе Theoretical value analysis https://lenovopress.lenovo.com/lp1852-configuring-amd-xgmi-links-on-thinksystem-sr665-v3#theoretical-value-analysis

Также рекомендую прочитать https://www.amd.com/content/dam/amd/en/documents/products/epyc/4th-gen-epyc-processor-architecture-white-paper.pdf
там архитектура Infinity Fabric более-менее понятно расписана и тоже приводятся теоретические показатели пропускной способности.

Выше также комментировали (не Вы, а SlavikF) некие 200 гигабайт и 30 гигабайт, не понимаю откуда числа. Но давайте просто проверим теоретические расчеты тестами, какая пропускная способность будет на Epyc 4 поколения:

https://gist.github.com/nsforth/50e87a9769dba93f897e194459857e24

Что получили - 700 гигабайт в секунду на оба сокета, 340 на один, 147 в одну сторону между numa 0-1 и 147 в другую между numa 1-0.

Итого: каждый процессор в numa interleaving может получать до 340 гигабайт в секунду в сумме (своя память + память соседа по numa), а оба примерно 700 гигабайт.

Information

Specialization