Pull to refresh

Comments 4

Если хочется заморочиться и теоретически ускорить генерацию в 2 раза, можно попробовать запустить модель на NPU RK3588S, который может использовать до 4GB RAM. Как минимум снять нагрузку с процессора.

Думал над этим, но вменяемых инструкций не нашел. На самом деле сначала я хотел заюзать orange pi rv2 у которого даже в названии Ai есть, но не получилось. Счас копаю эту тему поглубже

orange pi rv2 обещает 2TOPS

NPU в RK3588S обещает 6TOPS

По поводу запуска на NPU в RK3588S я смог накопать только что нужны специальные драйвера в ядре и они есть в ubuntu rockchip 24.04. У меня ubuntu rockchip 22.04 и нужных драйверов нет, переустановить её никак руки не дойдут поэтому как дальше не знаю, но самым простым способом запустить мне видится https://github.com/Pelochus/ezrknn-llm/

Попросил ИИ посчитать производительность модели на CPU RK3588S в сравнимых величинах, пишет что CPU RK3588S ~0.8 TOPS, но учётом квантизации полагаю скорость генерации будет сравнимой c orange pi rv2.

Да, седня поковырял, ее тоже нашел, но не проперло, и поддерживает не все, например phi4-mini, которая лучше всех показала на pi 5 нету. модели переконвертировать надо.
Зато поигрался с orange pi rv2, тулза называется ky-ort там те же проблемы поддерживает не все, надо конвертить, а то что было и я попробовал, дико жрет проц и глючит

Вот например, генерация жрет 4 ядра в ноль
Вот например, генерация жрет 4 ядра в ноль
А вот в результат, почти 1,5 минуты генерил
А вот в результат, почти 1,5 минуты генерил
A вот phi3-mini, жуткие тормоза и глючит опять же
A вот phi3-mini, жуткие тормоза и глючит опять же

ну и еще один минус, все это запускается кастомными тулзами, то есть Ollama минус, а это значит код который работает с Ollama, скороее всего заиспользовать не получится и надо во что то другое переделывать, опять же не очень понятно как, c доками там не очень

Sign up to leave a comment.

Articles