@Savory30 сен в 08:15

Ollama от А до Я: как выбрать модель, настроить и интегрировать

Средний

9 мин

21K

Искусственный интеллект

Из песочницы

+16

Комментарии 20

@igumnov 30 сен в 09:02

Полезная статья, хоть и сделанная при поддержки ИИ )

@LazyZeroed 30 сен в 13:49

Было бы интересно почитать реальный пример дообучения модели.

@msfs11 1 окт в 07:29

Следите за новостями, занимаюсь вводной статьей

@010011011000101110101 30 сен в 16:18

Жаль, что в видюху не нают доставить память ... На 8Гб даже экспериментировать не тянет - того, что хочется не запустить

@4kirill20 2 окт в 06:44

того, что хочется не запустить

Что, например?

@010011011000101110101 2 окт в 12:47

ну квен какойнить в нормальном размере. а не обрубок, чтобы только ржать над его косяками

@oldmold 3 окт в 03:39

Если достаточно RAM, то можно настроить режим no_gpu.

НЛО прилетело и опубликовало эту надпись здесь

@Gorthauer87 30 сен в 18:21

А какие прикольные модели можно запустить для кодинга с агентом если есть 24gb vram?

@Savory 30 сен в 20:11

Я в этой теме не профессионал, сам только недавно начал разбираться с этим вопросом, но слышал, что Qwen2.5-Coder, Deepseek-Coder, CodeLlama неплохо справляются со своей задачей. Лично сам я их не тестил(видюха слабая), поэтому наверняка сказать не могу, лучше это спросить у более опытных пользователей. А если брать что-то для общего пользования, включая кодинг, то можете попробовать Mistral или Gpt-oss(открытая нейронка от OpenAi)

@horribile 2 окт в 17:11

стоят все эти модели но олламе, gforce 2070,8gb, работают, отвечают, конечно, не моментально, но терпимо

@dkeiz 30 сен в 20:45

qwen 3 30B A3B coder/instruct, тут по желанию. Devstrall/Mistrall, gpt-oss-20b. Рекомендую как чат-кодер, а не как гаент.

@010011011000101110101 30 сен в 21:44

имхо, максимальная модель, что влезет в 24gb это https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF с нестандартным 5-битным квантованием. Занимает 21.7Гб

@dkeiz 1 окт в 00:30

это moe модель, ей не обязательно полностью влезать в vram

@010011011000101110101 2 окт в 14:57

какая, по-вашему, максимально возможная модель для 24gb VRAM?

@dkeiz 3 окт в 02:25

да хоть на ram+cpu запускайте, только скорость будет низкая. 24gb vram для moe -моделей это больше вопрос про требуемый размер контекста, при малом контексте все что угодно полезет.

@Kuzminvik 2 окт в 14:12

Не обязательно вся модель должна поместиться в vram. Часть грузиться в vram и там обрабатывается быстро на gpu, а то что не влезло, лежит в ram и обрабатывается на всех ядрах cpu.

@oldmold 3 окт в 04:24

на Linux устанавливается сразу для работы из командной строки простой командой:

$ curl -fsSL https://ollama.com/install.sh | sh

если curl не уставлен, то его устанавливают командой:

$ sudo apt install curl git

для тех у кого Windows всегда можно установить wsl.

В wsl ollama работает без проблем.

У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .

Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs

Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.

Туда нужно написать строку типа:

{"num_gpu":0,"repeat_penalty":1,"stop":["\u003c|im_start|\u003e","\u003c|im_end|\u003e"],"temperature":0.6,"top_k":20,"top_p":0.95}

"num_gpu":0 - использовать только CPU

Этой информации практически нет в сети, как и инструкций по ollama, я нашёл только в одной ссылке.

Для проверки параметров модели используйте команду:

$ ollama show gpt-oss --modelfile

где вместо gpt-oss впишите свою модель.

Всё тестировалось на ThinkPad P72 с 128 Гб RAM с Ubuntu 24.04 LTS - gpt-oss:120b и ThinkPad X1 Carbon с 64 Гб RAM с тем же Linux в WSL- gpt-oss:20b.

Все модели можно найти тут - https://ollama.com/search

Используйте Linux и WSL и будет вам счастье. :)

@Vertoletto 12 ноя в 18:57

Базовые возможности API позволяют:

запускать и останавливать модели;

Почему-то в официальной документации по API для ollama как раз про запуск и остановку моделей ни слова: в списке endpoints они отсутствуют.

@IOstream 29 ноя в 08:39

Хм, странно, на своей 3060 с 8ГБ только что запустилась и отработала запрос qwen3-coder:30b. При скачивании показывало 17 ГБ. Я так понимаю, в мою видяху не должно было поместиться. исходя из этого тезиса:

То есть если вес модели — 7 ГБ, то она займёт ровно столько же VRAM.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий