Dmitrii-Chashchin Dec 17 at 06:01

Запускаем LLM на iPhone локально — мой опыт с Gemma 2B

Easy

7 min

6.9K

Swift * Machine learning * Artificial IntelligenceDevelopment for iOS * Product Management *

Case

AI in developers season

Comments 4

riky Dec 17 at 11:21

На андройд с памятью повеселее, часто и по 12гб в телефоне есть. Может какую то MoE модель можно запустить?

Dmitrii-Chashchin Dec 17 at 12:45

С 12GB RAM на Android можно попробовать Qwen1.5-MoE-A2.7B (~8GB в Q4) - это MoE с 14B параметров, но активны только 2.7B. Но честно говоря, dense модели типа Llama 3.1 8B или Gemma 2 9B на 12GB будут работать стабильнее и давать сравнимое качество. MoE выигрывает на больших масштабах (Mixtral 8x7B), но там нужно уже 26GB+.

YMA Dec 17 at 11:29

Используется ли при этом NPU айфоновский, или все чисто на основных ядрах считается?

Dmitrii-Chashchin Dec 17 at 12:43

Нет, не задействуется. Библиотека LLM.swift основана на llama.cpp, который работает на CPU + Metal (GPU). Для использования NPU потребовалась бы конвертация модели в Core ML формат и другая архитектура приложения. Это возможное направление для оптимизации, но текущая реализация использует CPU и GPU.