Comments 5
Не совсем корректный заголовок. Кажется, что это стало возможно только сейчас. Но модели можно запускать относительно давно (по меркам прогресса LLM). И не только LLAMA, но и другие модели неплохо работают локально.
Например, можно выполнять inference локально в браузере телефона https://webllm.mlc.ai (требуется включение WebGPU.
Для iOS есть и нативные библиотеки, позволившие достигнуть высокой скорости.
Также и для графики - генерировать изображения локально вполне возможно. Для iOS это бесплатное приложение Draw Things.
>В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества
Это полная чепуха. Даже на 8битных весах модель крайне сильно деградирует. 4бит же - это просто мусор.
Почему здесь вообще сравнивается qlora, если ее адаптеры на выходе в 16бит и модель при инференсе деквантуется
Стоит спросить у той LLM, которая помогала писать статью, какие альтернативы существуют кроме executorch для запуска llm'ок на мобилках, и сравниться с ними.
Квантизация позволяет запускать Llama 3.2 на мобилках