Pull to refresh

Comments 5

Не совсем корректный заголовок. Кажется, что это стало возможно только сейчас. Но модели можно запускать относительно давно (по меркам прогресса LLM). И не только LLAMA, но и другие модели неплохо работают локально.

Например, можно выполнять inference локально в браузере телефона https://webllm.mlc.ai (требуется включение WebGPU.

Для iOS есть и нативные библиотеки, позволившие достигнуть высокой скорости.

Также и для графики - генерировать изображения локально вполне возможно. Для iOS это бесплатное приложение Draw Things.

>В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества

Это полная чепуха. Даже на 8битных весах модель крайне сильно деградирует. 4бит же - это просто мусор.

Почему здесь вообще сравнивается qlora, если ее адаптеры на выходе в 16бит и модель при инференсе деквантуется

Стоит спросить у той LLM, которая помогала писать статью, какие альтернативы существуют кроме executorch для запуска llm'ок на мобилках, и сравниться с ними.

Sign up to leave a comment.

Articles