Обновить

Комментарии 11

Есть Asus NUC у которого процессор двенадцатого поколения Intel и Intel Xe графикой, NPU и 12 ядрами CPU

А много ли выигрыша от запуска на GPU/NPU по сравнению с обычным ollama serve на ЦП? На моих тестах разница была в пределах 30%

На cpu крутятся сервисы, gpu пустой, плюс нагрев проца понижение, а значит вентилятор не шумит. Что до бенчмарка, то там от размера батча зависит и тюнить все надо, настроек вагон, нельзя сказать сходу, нужно описывать, что за модель, размер батча и тп.

Да, и это пока что без гетерогенного запуска в смеси из cpu/npu/gpu. В общем много факторов, на отдельную статью хватит.

https://www.intel.cn/content/dam/develop/public/us/en/documents/openvino-toolkit-llms-solution-white-paper.pdf

Тут можно посмотреть производительность на конкрртных нейронках. Сравнивать надо не просто cpu vs gpu, а openvino+cpu/gpu vs llama.cpp+cpu и другие бэкенды, например.

Да лень мне минус жать чаще всего. Не читай.

Хотя, убрал. В пылу писания пролетает разное. Грамотей из меня конечно.

В дополнение к OVMS ещё можно рассмотреть проект OpenArc

https://github.com/SearchSavior/OpenArc

OVMS это официальная вундервафля от Intel, openarc это самостоятельный, вроде бы даже учебный продукт, от автора, который умеет только часть от OVMS, насколько я понял, спасибо за ссылку. Там ссылки на модели есть на странице продукта, это полезно, спасибо. Сам же проект я использовать не стану при наличии официального и более мощного аналога от производителя. Да и модели я бы сам конвертировал на всякий параноидальный случай :)

Но спасибо за инфу, любопытно.

Там если что в Дискорд можно добавиться (openarc). Вместе плачем о поддержке moe моделек на openvino )

Недавно как раз баг зарепортили при конвертации gpt-oss (nncf) и по идее его сейчас правят.

Интересно, какая разница в произвольности между openvino и onnx

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации