У меня сборка из китайской мат платы x99-f8 + xeon 2699v3 + 512Гбайт оперативы Результаты: DeepSeek R1 2.2 т/с в начале 2~1.8 т/с в середине и до 1.1 т/с в конце на длинных ответах Топ модели доступны) По стоимости: матплата 10тр + проц 10тр + оператива 50тр + ssd по вкусу
Модель используется DeepSeek-R1-0528-UD-Q4_K_XL-00001-of-00008.gguf
О, отлично, спасибо! =)
А подключиться к llama.cpp запущенном как сервер на http://127.0.0.1:8081/v1
Ну или к серверу с llama.cpp можно ?
И как в buildroot устанавливать пакеты? =)
Лучше Yocto но там все пакеты надо где то хранить на сервере/диске
Или Alpine какой нибудь, он минималистичен
Это да)))
Пытался поставить 2699v4, тогда память завелась бы на 2400, но не взлетело, похоже питание на материнке не вывозит, просто виснет или перезагружается
Но факт то, что это минимальная конфигурация по цене которая позволяет запустить подобную топовую llm, пускай медленно)
У меня сборка из китайской мат платы x99-f8 + xeon 2699v3 + 512Гбайт оперативы
Результаты: DeepSeek R1
2.2 т/с в начале
2~1.8 т/с в середине
и до 1.1 т/с в конце на длинных ответах
Топ модели доступны)
По стоимости: матплата 10тр + проц 10тр + оператива 50тр + ssd по вкусу
Модель используется DeepSeek-R1-0528-UD-Q4_K_XL-00001-of-00008.gguf