Обновить

Комментарии 6

CPU Basic 2 vCPU 16 GB

такое железо есть почти у каждого, 4b модели мусор, не понимаю зачем они вообще кому либо нужны..

тут для работы 20-30b не хватает не разу... (для написания ("нормального") кода)

3b, 3-7t/s... А зачем? Эмбеддеры нормальные больше параметров имеют, а тут языковая на 3, которая даже json просто оформить не может. Ну запустить можно, а какой смысл ? Какую задачу она решит? Баги править? В обратную сторону разве что...

Есть железо для такой модели, но пользуюсь в основном облачным Клодом. Разница между ним и 3B моделью как между синьором и котом.

Интереснее посмотреть на Qwen3, но сходу такое:

    llm = Llama.from_pretrained(
        #model_path=model_path,
        n_ctx=CONTEXT_SIZE,
        n_threads=16,
        verbose=False,
	    repo_id="Qwen/Qwen3-8B-GGUF",
	    filename="Qwen3-8B-Q8_0.gguf",        
    )

на llama-cpp-python 0.3.23 не "завелось". И кстати, Луиджи прямо пишет, что использует форк от JamePeng, который и сам прекрасно делает пребилды: https://github.com/JamePeng/llama-cpp-python/releases/

А нельзя проще? Только запустил LM Studio + LLama-3.1-8B-Instruct на Dell лаптопе семилетней давности с 32Gb RAM без GPU. Установка заняла буквально 5 минут. 3 токена в секунду, но все работает - и поддержка русского тоже (проверял перевод на английский, проверку грамматики, несложные программные задачи).

Можно, но тогда не получилось бы рассказать про HuggingFace Spaces, Gradio и llama-cpp-python. А так сразу много тем можно рассказать в одной статье.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации