
Комментарии 18
Полезная статья, хоть и сделанная при поддержки ИИ )
Было бы интересно почитать реальный пример дообучения модели.
Жаль, что в видюху не нают доставить память ... На 8Гб даже экспериментировать не тянет - того, что хочется не запустить
А какие прикольные модели можно запустить для кодинга с агентом если есть 24gb vram?
Я в этой теме не профессионал, сам только недавно начал разбираться с этим вопросом, но слышал, что Qwen2.5-Coder, Deepseek-Coder, CodeLlama неплохо справляются со своей задачей. Лично сам я их не тестил(видюха слабая), поэтому наверняка сказать не могу, лучше это спросить у более опытных пользователей. А если брать что-то для общего пользования, включая кодинг, то можете попробовать Mistral или Gpt-oss(открытая нейронка от OpenAi)
qwen 3 30B A3B coder/instruct, тут по желанию. Devstrall/Mistrall, gpt-oss-20b. Рекомендую как чат-кодер, а не как гаент.
имхо, максимальная модель, что влезет в 24gb это https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF с нестандартным 5-битным квантованием. Занимает 21.7Гб
это moe модель, ей не обязательно полностью влезать в vram
Не обязательно вся модель должна поместиться в vram. Часть грузиться в vram и там обрабатывается быстро на gpu, а то что не влезло, лежит в ram и обрабатывается на всех ядрах cpu.
на Linux устанавливается сразу для работы из командной строки простой командой:
$ curl -fsSL https://ollama.com/install.sh | sh
если curl не уставлен, то его устанавливают командой:
$ sudo apt install curl git
для тех у кого Windows всегда можно установить wsl.
В wsl ollama работает без проблем.
У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .
Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs
Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.
Туда нужно написать строку типа:
{"num_gpu":0,"repeat_penalty":1,"stop":["\u003c|im_start|\u003e","\u003c|im_end|\u003e"],"temperature":0.6,"top_k":20,"top_p":0.95}
"num_gpu":0 - использовать только CPU
Этой информации практически нет в сети, как и инструкций по ollama, я нашёл только в одной ссылке.
Для проверки параметров модели используйте команду:
$ ollama show gpt-oss --modelfile
где вместо gpt-oss впишите свою модель.
Всё тестировалось на ThinkPad P72 с 128 Гб RAM с Ubuntu 24.04 LTS - gpt-oss:120b и ThinkPad X1 Carbon с 64 Гб RAM с тем же Linux в WSL- gpt-oss:20b.
Все модели можно найти тут - https://ollama.com/search
Используйте Linux и WSL и будет вам счастье. :)
Ollama от А до Я: как выбрать модель, настроить и интегрировать