Обновить

Комментарии 8

А можете добавить тесты этих же моделей на встроенном RDNA ускорителе?
Сколько tps / потребление памяти?

Спасибо за предложение, но пока что это не представляется возможным. Для задействования RDNA нужно использовать AMD ROCm. Для него, к счастью, есть поддержка в том же LM Studio. Только сам ROCm на данный момент не поддерживает мой процессор.

Хотя в последнем релизе ROCm появилась поддержка, пока что его установка на Windows затруднительна, а HIP SDK еще не сделали.

Проще говоря, через пару месяцев должна появится полная поддержка и тогда получится протестировать.

Вот про запуск LLM на NPU получается интересно. У меня есть ноут с Ai7 350, ставил LMStudio, думая что там есть поддержка NPU. На Qwen3.5-9B примерно те же 10-15 т/с, судя по диспетчеру задач это считалось на встройке 860M. После ваших тестов даже не уверен, стоит ли париться с RyzenAI-SW если производительность та же будет

Если верить официальным характеристикам вашего процессора, то он выдает такие же 50 TOPS, как и мой процессор. Значит в теории tps будет на том же уровне, что и примеры в статье. Но это вывод сделанный, опираясь только на показатель TOPS.

Интересная статья, думаю многим пригодится. Встроенный NPU звучит красиво, но реальная польза для персоналки пока сомнительна, да и если простой GPU справится не хуже, лучше выбрать его. Наверное более-менее полезной станет повышение мощности NPU раз в 10, но все равно все упирается в память (очень недешевую на данный момент) и это надо решать, например нейроморфные ахитектуры все-в-одном. А польза от NPU ~40 TOPS будет только для простых носимых устройств, где на первом плане энергоэффективность и цена.

C 32/16 G RAM всего/доступно для NPU не очень интересно - столько можно на GPU получить за сопоставимые деньги, при этом быстрее. А вот тот же AI Max+ 395 c 128/96(112) G уже, по идее, открывает новые возможности в плане того, что можно запустить локально. Хотя макбуки в этом плане ещё интереснее (скорость доступа к памяти в два раза больше), но и дороже.

Если Вы хотите запускать большие LLM, то для этого действительно лучше использовать GPU или даже специальные ускорители с большим объемом памяти.

А NPU, как пишу в статье, скорее предназначен для небольших нейросетей. При чем что важно, именно нейросетей, а не LLM. Хотя никто не запрещает запускать и то и другое, но LLM все же требует много ресурсов и активной работы. А вспомогательные нейросети, такие как в функции Click to Do, отлично ложатся на NPU, т.к. работают в фоне и много ресурсов не требуют.

Для понимания, нейросеть которая используется в Click to Do, потребляет всего 500мб.

Как раз для больших (ну как больших - средних, на те самые ~100 G VRAM) LLM стоимость GPU уже улетает в космос, да и в ноут такие GPU не поставишь, - а вот Ryzen AI / Apple M3-5, DGX Spark - ещё относительно бюджетно. А LLM такого класса уже не совсем тупая, для тестирования своих разработок может вполне подойти и сэкономить при этом на токенах изрядно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации