Комментарии 6
CPU Basic 2 vCPU 16 GB
такое железо есть почти у каждого, 4b модели мусор, не понимаю зачем они вообще кому либо нужны..
тут для работы 20-30b не хватает не разу... (для написания ("нормального") кода)
3b, 3-7t/s... А зачем? Эмбеддеры нормальные больше параметров имеют, а тут языковая на 3, которая даже json просто оформить не может. Ну запустить можно, а какой смысл ? Какую задачу она решит? Баги править? В обратную сторону разве что...
Есть железо для такой модели, но пользуюсь в основном облачным Клодом. Разница между ним и 3B моделью как между синьором и котом.
Интереснее посмотреть на Qwen3, но сходу такое:
llm = Llama.from_pretrained(
#model_path=model_path,
n_ctx=CONTEXT_SIZE,
n_threads=16,
verbose=False,
repo_id="Qwen/Qwen3-8B-GGUF",
filename="Qwen3-8B-Q8_0.gguf",
)на llama-cpp-python 0.3.23 не "завелось". И кстати, Луиджи прямо пишет, что использует форк от JamePeng, который и сам прекрасно делает пребилды: https://github.com/JamePeng/llama-cpp-python/releases/
А нельзя проще? Только запустил LM Studio + LLama-3.1-8B-Instruct на Dell лаптопе семилетней давности с 32Gb RAM без GPU. Установка заняла буквально 5 минут. 3 токена в секунду, но все работает - и поддержка русского тоже (проверял перевод на английский, проверку грамматики, несложные программные задачи).

Запускаем AI-ассистента на бесплатном CPU: Qwen2.5 + Gradio + Hugging Face Spaces