granite4:small - не такая и маленькая по сравнению с другими локальными моделями.
Для сравнения:
gpt-oss:120b - 65 GB
gpt-oss:20b - 13 GB
qwen3:8b - 5.2 GB
granite4:small - 19 GB
так что granite4:small должна быть точно не слабее gpt-oss:20b в генерации текстов. По крайней мере, на первый взгляд, я не заметил чего-то из ряда вон вылетающего.
А вот granite4:micro - 2.1 GB - действительно малышка. Но и она сгенерировала вполне нормальный текст. (Дай бог, чтобы так формулировала свои мысли половина выпускников школ.)
На вопрос: Describe the basic block diagram of LLM.
она выдала читабельную диаграму. И далее, чтобы не загружать пост, только первый абзац:
granite4:micro - "This block diagram represents the high-level structure of an LLM system. The input preprocessing module takes raw text as input and performs various tasks such as tokenization, POS tagging, NER, and lemmatization/stemming to prepare the data for further processing".
А потом по просьбе перевела:
"Это блочная диаграмма представляет собой высокоуровневую структуру системы LLM. Модуль предварительной обработки принимает на вход непрерывный текст и выполняет различные задачи, такие как разделение на токены, определение частей речи (POS), идентификация сущностей-эмблем и лематизация/склеивание для подготовки данных к дальнейшей обработке".
если curl не уставлен, то его устанавливают командой:
$ sudo apt install curl git
для тех у кого Windows всегда можно установить wsl.
В wsl ollama работает без проблем.
У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .
Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs
Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.
По этому поводу всегда вспоминается "Чарли и шоколадная фабрика", когда отца Чарли уволили с "должности" закручивателя крышек на тюбиках, и заменили на робота. Но потом он получает повышение и становится мастером по обслуживанию этого робота. :-)
granite4:small - не такая и маленькая по сравнению с другими локальными моделями.
Для сравнения:
gpt-oss:120b - 65 GB
gpt-oss:20b - 13 GB
qwen3:8b - 5.2 GB
granite4:small - 19 GB
так что granite4:small должна быть точно не слабее gpt-oss:20b в генерации текстов. По крайней мере, на первый взгляд, я не заметил чего-то из ряда вон вылетающего.
А вот granite4:micro - 2.1 GB - действительно малышка. Но и она сгенерировала вполне нормальный текст. (Дай бог, чтобы так формулировала свои мысли половина выпускников школ.)
На вопрос: Describe the basic block diagram of LLM.
она выдала читабельную диаграму. И далее, чтобы не загружать пост, только первый абзац:
granite4:micro - "This block diagram represents the high-level structure of an LLM system. The input preprocessing module takes raw text as input and performs various tasks such as tokenization, POS tagging, NER, and lemmatization/stemming to prepare the data for further processing".
А потом по просьбе перевела:
"Это блочная диаграмма представляет собой высокоуровневую структуру системы LLM. Модуль предварительной обработки принимает на вход непрерывный текст и выполняет различные задачи, такие как разделение на токены, определение частей речи (POS), идентификация сущностей-эмблем и лематизация/склеивание для подготовки данных к дальнейшей обработке".
Можете сравнить с переводчиком от Гугла. :)
на Linux устанавливается сразу для работы из командной строки простой командой:
$ curl -fsSL https://ollama.com/install.sh | sh
если curl не уставлен, то его устанавливают командой:
$ sudo apt install curl git
для тех у кого Windows всегда можно установить wsl.
В wsl ollama работает без проблем.
У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .
Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs
Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.
Туда нужно написать строку типа:
{"num_gpu":0,"repeat_penalty":1,"stop":["\u003c|im_start|\u003e","\u003c|im_end|\u003e"],"temperature":0.6,"top_k":20,"top_p":0.95}
"num_gpu":0 - использовать только CPU
Этой информации практически нет в сети, как и инструкций по ollama, я нашёл только в одной ссылке.
Для проверки параметров модели используйте команду:
$ ollama show gpt-oss --modelfile
где вместо gpt-oss впишите свою модель.
Всё тестировалось на ThinkPad P72 с 128 Гб RAM с Ubuntu 24.04 LTS - gpt-oss:120b и ThinkPad X1 Carbon с 64 Гб RAM с тем же Linux в WSL- gpt-oss:20b.
Все модели можно найти тут - https://ollama.com/search
Используйте Linux и WSL и будет вам счастье. :)
Если достаточно RAM, то можно настроить режим no_gpu.
По этому поводу всегда вспоминается "Чарли и шоколадная фабрика", когда отца Чарли уволили с "должности" закручивателя крышек на тюбиках, и заменили на робота. Но потом он получает повышение и становится мастером по обслуживанию этого робота. :-)
Это перевод с английского, а не авторская статья. Оригиналы статей автора Вы можете найти на сайте 3blue1brown - Animated Math.
Обратный нелинейный стохастический фильтр (нелинейная стохастическая деконволюция) не может обладать сознанием по умолчанию. :-D
Ещё можно использовать "alpha-trimmed mean" - это такой микс среднего и медианы, который используется в обработке сейсмических данных.