Pull to refresh

Comments 21

Полезная статья, хоть и сделанная при поддержки ИИ )

>при поддержки

>хоть

ИИ лучше, чем неграмотное робофобское мясо.

Было бы интересно почитать реальный пример дообучения модели.

Следите за новостями, занимаюсь вводной статьей

UFO landed and left these words here
UFO landed and left these words here

Если достаточно RAM, то можно настроить режим no_gpu.

UFO landed and left these words here

А какие прикольные модели можно запустить для кодинга с агентом если есть 24gb vram?

Я в этой теме не профессионал, сам только недавно начал разбираться с этим вопросом, но слышал, что Qwen2.5-Coder, Deepseek-Coder, CodeLlama неплохо справляются со своей задачей. Лично сам я их не тестил(видюха слабая), поэтому наверняка сказать не могу, лучше это спросить у более опытных пользователей. А если брать что-то для общего пользования, включая кодинг, то можете попробовать Mistral или Gpt-oss(открытая нейронка от OpenAi)

стоят все эти модели но олламе, gforce 2070,8gb, работают, отвечают, конечно, не моментально, но терпимо

qwen 3 30B A3B coder/instruct, тут по желанию. Devstrall/Mistrall, gpt-oss-20b. Рекомендую как чат-кодер, а не как гаент.

UFO landed and left these words here

это moe модель, ей не обязательно полностью влезать в vram

UFO landed and left these words here

да хоть на ram+cpu запускайте, только скорость будет низкая. 24gb vram для moe -моделей это больше вопрос про требуемый размер контекста, при малом контексте все что угодно полезет.

Не обязательно вся модель должна поместиться в vram. Часть грузиться в vram и там обрабатывается быстро на gpu, а то что не влезло, лежит в ram и обрабатывается на всех ядрах cpu.

на Linux устанавливается сразу для работы из командной строки простой командой:

$ curl -fsSL https://ollama.com/install.sh | sh

если curl не уставлен, то его устанавливают командой:

$ sudo apt install curl git

для тех у кого Windows всегда можно установить wsl.

В wsl ollama работает без проблем.

У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .

Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs

Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.

Туда нужно написать строку типа:

{"num_gpu":0,"repeat_penalty":1,"stop":["\u003c|im_start|\u003e","\u003c|im_end|\u003e"],"temperature":0.6,"top_k":20,"top_p":0.95}

"num_gpu":0 - использовать только CPU

Этой информации практически нет в сети, как и инструкций по ollama, я нашёл только в одной ссылке.

Для проверки параметров модели используйте команду:

$ ollama show gpt-oss --modelfile

где вместо gpt-oss впишите свою модель.

Всё тестировалось на ThinkPad P72 с 128 Гб RAM с Ubuntu 24.04 LTS - gpt-oss:120b и ThinkPad X1 Carbon с 64 Гб RAM с тем же Linux в WSL- gpt-oss:20b.

Все модели можно найти тут - https://ollama.com/search

Используйте Linux и WSL и будет вам счастье. :)

Хм, странно, на своей 3060 с 8ГБ только что запустилась и отработала запрос qwen3-coder:30b. При скачивании показывало 17 ГБ. Я так понимаю, в мою видяху не должно было поместиться. исходя из этого тезиса:

То есть если вес модели — 7 ГБ, то она займёт ровно столько же VRAM.

Sign up to leave a comment.

Articles