Комментарии 8
А можете добавить тесты этих же моделей на встроенном RDNA ускорителе?
Сколько tps / потребление памяти?
Спасибо за предложение, но пока что это не представляется возможным. Для задействования RDNA нужно использовать AMD ROCm. Для него, к счастью, есть поддержка в том же LM Studio. Только сам ROCm на данный момент не поддерживает мой процессор.
Хотя в последнем релизе ROCm появилась поддержка, пока что его установка на Windows затруднительна, а HIP SDK еще не сделали.
Проще говоря, через пару месяцев должна появится полная поддержка и тогда получится протестировать.
Вот про запуск LLM на NPU получается интересно. У меня есть ноут с Ai7 350, ставил LMStudio, думая что там есть поддержка NPU. На Qwen3.5-9B примерно те же 10-15 т/с, судя по диспетчеру задач это считалось на встройке 860M. После ваших тестов даже не уверен, стоит ли париться с RyzenAI-SW если производительность та же будет
Интересная статья, думаю многим пригодится. Встроенный NPU звучит красиво, но реальная польза для персоналки пока сомнительна, да и если простой GPU справится не хуже, лучше выбрать его. Наверное более-менее полезной станет повышение мощности NPU раз в 10, но все равно все упирается в память (очень недешевую на данный момент) и это надо решать, например нейроморфные ахитектуры все-в-одном. А польза от NPU ~40 TOPS будет только для простых носимых устройств, где на первом плане энергоэффективность и цена.
C 32/16 G RAM всего/доступно для NPU не очень интересно - столько можно на GPU получить за сопоставимые деньги, при этом быстрее. А вот тот же AI Max+ 395 c 128/96(112) G уже, по идее, открывает новые возможности в плане того, что можно запустить локально. Хотя макбуки в этом плане ещё интереснее (скорость доступа к памяти в два раза больше), но и дороже.
Если Вы хотите запускать большие LLM, то для этого действительно лучше использовать GPU или даже специальные ускорители с большим объемом памяти.
А NPU, как пишу в статье, скорее предназначен для небольших нейросетей. При чем что важно, именно нейросетей, а не LLM. Хотя никто не запрещает запускать и то и другое, но LLM все же требует много ресурсов и активной работы. А вспомогательные нейросети, такие как в функции Click to Do, отлично ложатся на NPU, т.к. работают в фоне и много ресурсов не требуют.
Для понимания, нейросеть которая используется в Click to Do, потребляет всего 500мб.
Как раз для больших (ну как больших - средних, на те самые ~100 G VRAM) LLM стоимость GPU уже улетает в космос, да и в ноут такие GPU не поставишь, - а вот Ryzen AI / Apple M3-5, DGX Spark - ещё относительно бюджетно. А LLM такого класса уже не совсем тупая, для тестирования своих разработок может вполне подойти и сэкономить при этом на токенах изрядно.

NPU, Copilot+ PC и нейросети. Использую NPU в повседневной жизни