confident_action Mar 17 2025 at 15:15

Комплексное руководство по конфигурации сервера для LLM

Medium

7 min

Machine learning * Natural Language Processing * Artificial Intelligence

From sandbox

Comments 15

foxb Mar 17 2025 at 15:50

Я хотел бы добавить, что для личного использования графические процессоры AMD также являются хорошим выбором.

Alex-Freeman Mar 17 2025 at 16:19

Если вы про Instinct 325, то да) А так соотношение производительности, потребления, объема памяти и цены - не лучший выбор (я про 7900xtx другие вообще бессмысленно рассматривать, ну еще 7900xt если с хорошей скидкой покупать)

alan008 Mar 17 2025 at 17:07

Надо просто упомянуть, что большинство llm фреймворков ориентированы на cuda, а использование RocM может привести к необоснованным танцам с бубном.

foxb Mar 18 2025 at 02:22

У меня RX6600, и он хорошо работает для инференсе с использованием бэкенда Vulkan.
Phi 4 mini q6
RocM -> 37.63T/s
Vulkan -> 33.00T/s

confident_action Mar 18 2025 at 09:10

Для локального запуска на ноутбуке - беспорно, можно и на AMD GPU и на хороших процессорах запускать. Часто в организациях для ML\DS выдают для целей разработки высокопроизводительные ноутбуки для локальных тестов моделей

Grogcm20 Mar 18 2025 at 01:50

Классная статья, развеяли многие ожидания))). Но из последних новостей, берем покупаем Mac Studio M3 Ultra за 10К$ и запускаем Deepseak на все ~600млрд параметров локально с 4 битной квантизацией. Ну или модель поменьше без квантизации. Но это далеко не 150К$ для корпоративного решения. Я в шоке. В видео блогер показал, довольно шустро работает.

HyperWin Mar 18 2025 at 02:43

NetworkChuck запускал на кластере этих маков... Люто упёрся в пропускную способность Thunderbolt. Но эксперимент интересный.

ENick Mar 18 2025 at 06:13

Подскажите пожалуйста, что лучше из CPU: i7 верхнего уровня или начального уровня i9?

alan008 Mar 18 2025 at 06:33

На CPU все LLM работают отвратительно. Нужна видеокарта все-таки (RTX 3090 хотя бы)

ENick Mar 18 2025 at 06:36

Конечно, только при наличии граф карты, какой процессор CPU наиболее оптимален?

alan008 Mar 18 2025 at 07:30

При инференсе на ГПУ обычный процессор практически без нагрузки, так что вряд ли будет заметна разница между i7 и i9. Нагрузка появляется только если инференс идет в гибридном режиме, когда часть весов не влезает в ГПУ и размещается в обычной памяти, но при этом скорость проседает значительно.

confident_action Mar 18 2025 at 09:27

Для профессиональных задач (обучение, RAG) выбирайте начальный i9. Для экспериментов или тестирования — верхний i7. Если бюджет критичен, но нужна параллелизация, рассмотрите AMD Ryzen 9 (например, Ryzen 9 7950X с 16 ядрами) — он часто дешевле i9 при схожей производительности.
Ну и общие критерии выбора:
1. Чем больше ядер, тем быстрее обработка параллельных задач.
2. Высокая частота ускоряет обработку токенов
3. Больший кэш и быстрая память снижают задержки при доступе к данным

при сравнении верхний i7 vs начальный i9 будет разница ~20-30% в вычислениях. Зависит от бюджета. Обратите внимание на связку CPU-RAM что бы была высокая скорость передачи данных по шине

ENick Mar 18 2025 at 13:22

Очень неожиданно для меня, что для RAG более эффективен i9. Поясните пожалуйста, вроде в RAG в основном работают llm и для них главнее GPU, чем CPU

confident_action Mar 19 2025 at 08:15

LLM может запускаться как на ресурсах GPU так и на CPU. Из вашего вопроса выше я понял что хотели запускать только на CPU, поэтому такой и ответ :)

Если планируете на десктопе GPU+CPU, из бюджетных вариантов для инференса:
CPU: i7-14xxxx , Ryzen 7 78xxxx
GPU: RTX 4070 Ti
должно хватить для моделей до 13B

Обращайте внимание на объем, битность, тип, частоту VRAM и частоту GPU.
Какие характеристики на что влияют -есть в статье

photobum Mar 19 2025 at 05:10

Самое понятное объяснение. Автору огромный респект. Так понятно и просто первый раз прочитал, остальные статьи, которые мне попадались: либо никакой конкретики по железу, либо для инопланетян написано, но конкретики снова нет. Спасибо!