Comments / Profile of vpman / Habr

Вячеслав@vpman

User

0,2

Rating

Франкенштейн на 30 ГБ RAM: Как мы пересадили мозг Gemma в скелет DeepSeek и сломали Transformers

Мифический Франкенштейн мог заниматься осмысленной практической деятельностью. Стоит ли ожидать полезных артефактов от подобного подхода, кроме "ну да, и так тоже извратиться можно"?

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 25 at 16:35

надо в конфиге opencode прописать параметры для модели
“modalities”: { “input”: [ “text”, “image” ], “output”: [ “text” ] }

Без этого работать не будет

Детали - в документации.

2. Зачем менеджеры, если можно просто запустить exe файл.из архива релиза

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 25 at 06:10

Можно путь к файлу скриншота
Зачем его в докере, если он в консоли работает? ИБ?
Если у нему подключить mcp playwright, то с хорошей VL моделью он сам отлаживает веб приложения и работает с изображениями

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 25 at 06:04

Кажется, что практическая применимость малых, и к тому же медленных из за железа моделей очень ограничена. В большинстве популярных сценариев они будут сжирать личное время пользователя на исправления и перезапросы.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 24 at 19:30

Заход с другого бока: openrouter.ai . Там куча дешёвых "китайцев". есть и бесплатные, но тормозные обычно.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 24 at 18:36

vLLM в нативном Windows пока не фунциклирует, а с виртуализацией это уже не торт. Из коментов видно, что народу интересно удобное и доступное решение для домашек, т.е. Windows в большинстве случаев. И насчет x2 к llama.cpp выглядит преувеличением. Для одиночного пользователя без конкуренции разницы может и не будет.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 24 at 17:12

У меня полностью влезает в 80Gb VRAM в 3 карты, контекст ставлю до 160кб и еще можно добавить, только для parallel 1 смысла нет, т.к. после 120+кб PP начинает некомфортно долго думать, даже если попадает в кеш. На простом запросе "Расскажи о себе" дает 70 t/s.
Мой конфиг, может кому пригодится:
“.\bin_test\llama-server.exe” -m ^ f:\AI\LMStudio\models\unsloth\Qwen3.5-122B-A10B-GGUF\Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf ^ –host 0.0.0.0 ^ –port 1234 ^ -c 160000 ^ -ngl 49 ^ –split-mode layer ^ –tensor-split 3.2,1.0,1.0 ^ –main-gpu 0 ^ –flash-attn on^ –threads 6 --threads-batch 6 ^ –batch-size 2048 ^ –ubatch-size 1024 ^ –kv-unified ^ –temp 0.6 --top-p 0.95 --min-p 0.00 ^ –cache-type-k q8_0 --cache-type-v q8_0 -a “qwen3.5-122b” ^ –jinja ^ –reasoning off ^ –cache-ram 10000 ^ –mmproj f:\AI\LMStudio\models\unsloth\Qwen3.5-122B-A10B-GGUF\mmproj-BF16.gguf ^ –parallel 1 ^ –no-mmap ^ –tools all

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 24 at 07:38

122 всяко лучше в целом, т.к. в ней в 3.5 раза больше данных. Но последняя 3.6-35b тоже для многих задач очень даже неплоха. Надо смотреть в реальных применениях. В ютубах уже полно обзоров и сравнений.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 24 at 07:01

Пользуюсь. У меня она сейчас в Q4_K_XL (70Gb файл) помещается полностью в VRAM 80Gb на 3 карты в режие x8+x8+x4. Скорость 60-70 t/s на простом запросе. Если чуть уйти в RAM на пару гигабайт, то падает до 40 t/s и чем больше выгрузка в RAM тем медленнее. Модель большая для домашнего компьютера, и мне кажется что ваша конфигурация не будет выдавать комфортную скорость(хотя бы 30 тс). Но я не пользовался cmoe и ncmoe, как написано в статье. Возможно они существенно ускоряют инференс для этой модели в RAM.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman Apr 24 at 05:27

Можно. Pciex4 сильно не влияет на инференс, модель только грузится дольше. По сравнению с CPU скорость инференса выше. Кратность зависит от соотношения модели в VRAM и RAM. Но даже если 1 layer попадает в RAM то сразу минус 30% к скорости. И чем больше их в Ram тем хуже. У меня была одна карта на x16 4080 16гб и вторая х4 5060 16гб- с полным VRAM offload на две карты в разы быстрее для моделей с файлом от 16гб .

Как я тестировал локально новый Qwen 3.6 и Gemma 4

vpman Apr 18 at 19:31

В llama.cpp любую модель можно распределить между VRAM и RAM параметром –n-gpu-layers N (или -ngl N), где N - количество layers которые загружаются в VRAM. Если 0 - то все в RAM. Если N слоев не поместятся в VRAM, будет memory overflow.
Так же для MoE моделей можно выгружать последние N экспертов в RAM (--n-cpu-moe N), если -ngl больше или равно количеству layers модели.
Есть еще более тонкая настройка через --override-tenors. Можно задать регулярку и выгружать части тензоров в любых сочетаниях в любую память.

Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM

vpman Apr 14 at 05:47

На сколько мне известно, прогоняются целевые запросы (например по кодингу) через модель, и на ее роутере считается активация каждого эксперта. Те, которые наберут меньше активаций в последствии вырезаются. Проблема в том, что эксперты могут равномерно распределять веса, и их удаление может сильно ухудшить качество.

Гемму4 уже рипнули https://huggingface.co/mradermacher/gemma-4-21b-a4b-it-REAP-heretic-GGUF и еще много других на HF

Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM

vpman Apr 13 at 18:01

Запустить то с офолоадом можно, но, например плотная гемма4 31б на 4090_48Gb выдает не больше 30t/s. А при офлоаде даже 1 слоя тензоров на ЦПУ скорость падает почти на треть, и с каждым слоем все сильнее. При соотношении VRAM-RAM 50 на 5, скорость с 12 потоками CPU - 3-4 t/s.
Перспективно выглядят попытки сделать REAP версии больших моделей МОЕ, где вырезаются "лишние" эксперты, которые могут не использоваться в прикладных задачах.
Надеюсь сделают обрезание для Minimax 2.7, чтобы не Q2 загружать, а Q4_M, хотя бы. Хотя и Q2 работает на удивление неплохо.

PG_EXPECTO vs GENTLEMAN v10.2: почему детальный промпт побеждает универсальную инструкцию

vpman Apr 3 at 07:54

Хочется читать статью, а не лог из какой-то хрени. Логов на работе хватает.

80% токенов впустую: DeepSeek и GPT-OSS попались на «театральном мышлении»

vpman Mar 15 at 04:54

5 марта Unsloth переквантовали все qwen3.5, якобы с улучшением качества. При этом на 122b размер Q4_K_XL UD вырос на 10Gb и уже не подходит под мои 80Gb VRAM, пришлось скачать Q4_K_S, на 73Gb. И она на задаче с размышлением ушла в бесконечный цикл на какой то букве.
Новое - не всегда лучше старого.
Удалил, и пользуюсь предыдущей версией Q4_K_XL на 68GB - пока впечатления положительные, особенно в VL части - хорошо распознает фин. отчетность, на которой ранние модели косячили, а сейчас - 1 в 1.

Ollama 0.15.5 новый релиз

vpman Feb 8 at 09:15

Vik-on, авито. Брал недавно, с водянкой. Есть турбина, но она шумит как пылесос

DeepSeek работа с API и оплата доступа из РФ

vpman May 27 2025 at 05:49

Сейчас работает пополнение Alipay по российскому номеру телефона из Сбера.
Через ЛК на сайте.
Переводы->В другую страну->Китай- A wallet (или типа того) -> Номер телефона в Alipay, но с 86 в начале( 86791xxxxxxx...)
От 5000р. Курс обмена не сильно рыночный + 50 р комиссия

Полиграфистки сходят с ума по одной

vpman Mar 6 2020 at 09:33

Вы сами назвали разницу — публичность информации. Коммерческая компания по сути своей обязана быть публичной. А человек — нет. Полиграф по отношению к человеку, это как если бы я нанял детектива, который бы выяснял подробности личной биографию владельца компании, источники происхождения капитала, криминальные и коррупционные связи, чистоту внутренней бухгалтерской отчетности, и прочие интересные вещи. И все это при добровольном участии и помощи сотрудников компании и ее владельцев. Мне такая ситуация кажется фантастической и больше подходит к сюжету утопии.
Никто не запрещает собирать информацию обо мне из публичных источников, но лезть во внутренности — это уже совсем другая история.

Полиграфистки сходят с ума по одной

vpman Mar 6 2020 at 06:51

Не согласен. Хотя бы потому что, соискатель не может провести аналогичную процедуру с работодателем. Во-вторых, полиграф — это исследование, что сразу принижает человека до статуса объекта, тогда как по-моему, любая работа — это деловые коммерческие отношения, в которых обе стороны должны считаться субъектами. Если одна из сторон начинает играть в мастер-слейв, то эта ситуация на любителей. Не мое.

+16

Полиграфистки сходят с ума по одной

vpman Mar 6 2020 at 05:46

Это просто унизительно… К черту такие конторы.

+39