Обновить

Комментарии 18

Полезная статья, хоть и сделанная при поддержки ИИ )

Было бы интересно почитать реальный пример дообучения модели.

Следите за новостями, занимаюсь вводной статьей

ну квен какойнить в нормальном размере. а не обрубок, чтобы только ржать над его косяками

Если достаточно RAM, то можно настроить режим no_gpu.

А какие прикольные модели можно запустить для кодинга с агентом если есть 24gb vram?

Я в этой теме не профессионал, сам только недавно начал разбираться с этим вопросом, но слышал, что Qwen2.5-Coder, Deepseek-Coder, CodeLlama неплохо справляются со своей задачей. Лично сам я их не тестил(видюха слабая), поэтому наверняка сказать не могу, лучше это спросить у более опытных пользователей. А если брать что-то для общего пользования, включая кодинг, то можете попробовать Mistral или Gpt-oss(открытая нейронка от OpenAi)

стоят все эти модели но олламе, gforce 2070,8gb, работают, отвечают, конечно, не моментально, но терпимо

qwen 3 30B A3B coder/instruct, тут по желанию. Devstrall/Mistrall, gpt-oss-20b. Рекомендую как чат-кодер, а не как гаент.

это moe модель, ей не обязательно полностью влезать в vram

какая, по-вашему, максимально возможная модель для 24gb VRAM?

да хоть на ram+cpu запускайте, только скорость будет низкая. 24gb vram для moe -моделей это больше вопрос про требуемый размер контекста, при малом контексте все что угодно полезет.

Не обязательно вся модель должна поместиться в vram. Часть грузиться в vram и там обрабатывается быстро на gpu, а то что не влезло, лежит в ram и обрабатывается на всех ядрах cpu.

на Linux устанавливается сразу для работы из командной строки простой командой:

$ curl -fsSL https://ollama.com/install.sh | sh

если curl не уставлен, то его устанавливают командой:

$ sudo apt install curl git

для тех у кого Windows всегда можно установить wsl.

В wsl ollama работает без проблем.

У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .

Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs

Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.

Туда нужно написать строку типа:

{"num_gpu":0,"repeat_penalty":1,"stop":["\u003c|im_start|\u003e","\u003c|im_end|\u003e"],"temperature":0.6,"top_k":20,"top_p":0.95}

"num_gpu":0 - использовать только CPU

Этой информации практически нет в сети, как и инструкций по ollama, я нашёл только в одной ссылке.

Для проверки параметров модели используйте команду:

$ ollama show gpt-oss --modelfile

где вместо gpt-oss впишите свою модель.

Всё тестировалось на ThinkPad P72 с 128 Гб RAM с Ubuntu 24.04 LTS - gpt-oss:120b и ThinkPad X1 Carbon с 64 Гб RAM с тем же Linux в WSL- gpt-oss:20b.

Все модели можно найти тут - https://ollama.com/search

Используйте Linux и WSL и будет вам счастье. :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации