Savory Sep 30 2025 at 08:15

Ollama от А до Я: как выбрать модель, настроить и интегрировать

Medium

9 min

162K

Artificial Intelligence

From sandbox

+16

Comments 21

igumnov Sep 30 2025 at 09:02

Полезная статья, хоть и сделанная при поддержки ИИ )

Gizensha Dec 14 2025 at 20:39

>при поддержки

>хоть

ИИ лучше, чем неграмотное робофобское мясо.

LazyZeroed Sep 30 2025 at 13:49

Было бы интересно почитать реальный пример дообучения модели.

msfs11 Oct 1 2025 at 07:29

Следите за новостями, занимаюсь вводной статьей

010011011000101110101 Sep 30 2025 at 16:18

Жаль, что в видюху не нают доставить память ... На 8Гб даже экспериментировать не тянет - того, что хочется не запустить

4kirill20 Oct 2 2025 at 06:44

того, что хочется не запустить

Что, например?

010011011000101110101 Oct 2 2025 at 12:47

ну квен какойнить в нормальном размере. а не обрубок, чтобы только ржать над его косяками

oldmold Oct 3 2025 at 03:39

Если достаточно RAM, то можно настроить режим no_gpu.

UFO landed and left these words here

Gorthauer87 Sep 30 2025 at 18:21

А какие прикольные модели можно запустить для кодинга с агентом если есть 24gb vram?

Savory Sep 30 2025 at 20:11

Я в этой теме не профессионал, сам только недавно начал разбираться с этим вопросом, но слышал, что Qwen2.5-Coder, Deepseek-Coder, CodeLlama неплохо справляются со своей задачей. Лично сам я их не тестил(видюха слабая), поэтому наверняка сказать не могу, лучше это спросить у более опытных пользователей. А если брать что-то для общего пользования, включая кодинг, то можете попробовать Mistral или Gpt-oss(открытая нейронка от OpenAi)

horribile Oct 2 2025 at 17:11

стоят все эти модели но олламе, gforce 2070,8gb, работают, отвечают, конечно, не моментально, но терпимо

dkeiz Sep 30 2025 at 20:45

qwen 3 30B A3B coder/instruct, тут по желанию. Devstrall/Mistrall, gpt-oss-20b. Рекомендую как чат-кодер, а не как гаент.

010011011000101110101 Sep 30 2025 at 21:44

имхо, максимальная модель, что влезет в 24gb это https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF с нестандартным 5-битным квантованием. Занимает 21.7Гб

dkeiz Oct 1 2025 at 00:30

это moe модель, ей не обязательно полностью влезать в vram

010011011000101110101 Oct 2 2025 at 14:57

какая, по-вашему, максимально возможная модель для 24gb VRAM?

dkeiz Oct 3 2025 at 02:25

да хоть на ram+cpu запускайте, только скорость будет низкая. 24gb vram для moe -моделей это больше вопрос про требуемый размер контекста, при малом контексте все что угодно полезет.

Kuzminvik Oct 2 2025 at 14:12

Не обязательно вся модель должна поместиться в vram. Часть грузиться в vram и там обрабатывается быстро на gpu, а то что не влезло, лежит в ram и обрабатывается на всех ядрах cpu.

oldmold Oct 3 2025 at 04:24

на Linux устанавливается сразу для работы из командной строки простой командой:

$ curl -fsSL https://ollama.com/install.sh | sh

если curl не уставлен, то его устанавливают командой:

$ sudo apt install curl git

для тех у кого Windows всегда можно установить wsl.

В wsl ollama работает без проблем.

У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .

Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs

Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.

Туда нужно написать строку типа:

{"num_gpu":0,"repeat_penalty":1,"stop":["\u003c|im_start|\u003e","\u003c|im_end|\u003e"],"temperature":0.6,"top_k":20,"top_p":0.95}

"num_gpu":0 - использовать только CPU

Этой информации практически нет в сети, как и инструкций по ollama, я нашёл только в одной ссылке.

Для проверки параметров модели используйте команду:

$ ollama show gpt-oss --modelfile

где вместо gpt-oss впишите свою модель.

Всё тестировалось на ThinkPad P72 с 128 Гб RAM с Ubuntu 24.04 LTS - gpt-oss:120b и ThinkPad X1 Carbon с 64 Гб RAM с тем же Linux в WSL- gpt-oss:20b.

Все модели можно найти тут - https://ollama.com/search

Используйте Linux и WSL и будет вам счастье. :)

Vertoletto Nov 12 2025 at 18:57

Базовые возможности API позволяют:

запускать и останавливать модели;

Почему-то в официальной документации по API для ollama как раз про запуск и остановку моделей ни слова: в списке endpoints они отсутствуют.

IOstream Nov 29 2025 at 08:39

Хм, странно, на своей 3060 с 8ГБ только что запустилась и отработала запрос qwen3-coder:30b. При скачивании показывало 17 ГБ. Я так понимаю, в мою видяху не должно было поместиться. исходя из этого тезиса:

То есть если вес модели — 7 ГБ, то она займёт ровно столько же VRAM.