Comments 4
На андройд с памятью повеселее, часто и по 12гб в телефоне есть. Может какую то MoE модель можно запустить?
С 12GB RAM на Android можно попробовать Qwen1.5-MoE-A2.7B (~8GB в Q4) - это MoE с 14B параметров, но активны только 2.7B. Но честно говоря, dense модели типа Llama 3.1 8B или Gemma 2 9B на 12GB будут работать стабильнее и давать сравнимое качество. MoE выигрывает на больших масштабах (Mixtral 8x7B), но там нужно уже 26GB+.
Используется ли при этом NPU айфоновский, или все чисто на основных ядрах считается?
Нет, не задействуется. Библиотека LLM.swift основана на llama.cpp, который работает на CPU + Metal (GPU). Для использования NPU потребовалась бы конвертация модели в Core ML формат и другая архитектура приложения. Это возможное направление для оптимизации, но текущая реализация использует CPU и GPU.
Запускаем LLM на iPhone локально — мой опыт с Gemma 2B