ruslandevlabs Nov 5 2024 at 13:27

Квантизация позволяет запускать Llama 3.2 на мобилках

3 min

8.6K

Artificial IntelligenceMachine learning *

Comments 5

entze Nov 5 2024 at 14:07

Не совсем корректный заголовок. Кажется, что это стало возможно только сейчас. Но модели можно запускать относительно давно (по меркам прогресса LLM). И не только LLAMA, но и другие модели неплохо работают локально.

Например, можно выполнять inference локально в браузере телефона https://webllm.mlc.ai (требуется включение WebGPU.

Для iOS есть и нативные библиотеки, позволившие достигнуть высокой скорости.

Также и для графики - генерировать изображения локально вполне возможно. Для iOS это бесплатное приложение Draw Things.

Kergan88 Nov 5 2024 at 20:10

>В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества

Это полная чепуха. Даже на 8битных весах модель крайне сильно деградирует. 4бит же - это просто мусор.

ruslandevlabs Nov 6 2024 at 05:08

бенчмарки показывают обратное)

mkgs210 Nov 6 2024 at 16:31

Почему здесь вообще сравнивается qlora, если ее адаптеры на выходе в 16бит и модель при инференсе деквантуется

eigrad Nov 7 2024 at 17:00

Стоит спросить у той LLM, которая помогала писать статью, какие альтернативы существуют кроме executorch для запуска llm'ок на мобилках, и сравниться с ними.