All streams
Search
Write a publication
Pull to refresh
1
0
Владимир Сопивник @oldmold

User

Send message

granite4:small - не такая и маленькая по сравнению с другими локальными моделями.

Для сравнения:

gpt-oss:120b - 65 GB

gpt-oss:20b - 13 GB

qwen3:8b - 5.2 GB

granite4:small - 19 GB

так что granite4:small должна быть точно не слабее gpt-oss:20b в генерации текстов. По крайней мере, на первый взгляд, я не заметил чего-то из ряда вон вылетающего.

А вот granite4:micro - 2.1 GB - действительно малышка. Но и она сгенерировала вполне нормальный текст. (Дай бог, чтобы так формулировала свои мысли половина выпускников школ.)

На вопрос: Describe the basic block diagram of LLM.

она выдала читабельную диаграму. И далее, чтобы не загружать пост, только первый абзац:

granite4:micro - "This block diagram represents the high-level structure of an LLM system. The input preprocessing module takes raw text as input and performs various tasks such as tokenization, POS tagging, NER, and lemmatization/stemming to prepare the data for further processing".

А потом по просьбе перевела:

"Это блочная диаграмма представляет собой высокоуровневую структуру системы LLM. Модуль предварительной обработки принимает на вход непрерывный текст и выполняет различные задачи, такие как разделение на токены, определение частей речи (POS), идентификация сущностей-эмблем и лематизация/склеивание для подготовки данных к дальнейшей обработке".

Можете сравнить с переводчиком от Гугла. :)

на Linux устанавливается сразу для работы из командной строки простой командой:

$ curl -fsSL https://ollama.com/install.sh | sh

если curl не уставлен, то его устанавливают командой:

$ sudo apt install curl git

для тех у кого Windows всегда можно установить wsl.

В wsl ollama работает без проблем.

У кого мало VRAM или вообще нет GPU, можно включить режим { "num_gpu":0 } .

Файлы конфигурации, как и сами модели, хранятся в Linux в директории - /usr/share/ollama/.ollama/models/blobs

Сама модель там будет самым большим файлом, а файл параметров самым маленьким. Его можно отредактировать простым текстовым редактор. Я по-старинке использую vi.

Туда нужно написать строку типа:

{"num_gpu":0,"repeat_penalty":1,"stop":["\u003c|im_start|\u003e","\u003c|im_end|\u003e"],"temperature":0.6,"top_k":20,"top_p":0.95}

"num_gpu":0 - использовать только CPU

Этой информации практически нет в сети, как и инструкций по ollama, я нашёл только в одной ссылке.

Для проверки параметров модели используйте команду:

$ ollama show gpt-oss --modelfile

где вместо gpt-oss впишите свою модель.

Всё тестировалось на ThinkPad P72 с 128 Гб RAM с Ubuntu 24.04 LTS - gpt-oss:120b и ThinkPad X1 Carbon с 64 Гб RAM с тем же Linux в WSL- gpt-oss:20b.

Все модели можно найти тут - https://ollama.com/search

Используйте Linux и WSL и будет вам счастье. :)

Если достаточно RAM, то можно настроить режим no_gpu.

По этому поводу всегда вспоминается "Чарли и шоколадная фабрика", когда отца Чарли уволили с "должности" закручивателя крышек на тюбиках, и заменили на робота. Но потом он получает повышение и становится мастером по обслуживанию этого робота. :-)

Это перевод с английского, а не авторская статья. Оригиналы статей автора Вы можете найти на сайте 3blue1brown - Animated Math.

Обратный нелинейный стохастический фильтр (нелинейная стохастическая деконволюция) не может обладать сознанием по умолчанию. :-D

Ещё можно использовать "alpha-trimmed mean" - это такой микс среднего и медианы, который используется в обработке сейсмических данных.

Information

Rating
5,434-th
Registered
Activity

Specialization

Specialist
Lead
Linux
English