Комментарии / Профиль vpman / Хабр

Вячеслав@vpman

Пользователь

0,1

Рейтинг

Как кандидат наук из Нахабино зарабатывает до 1,5 млн в месяц

Первое - я не зожник и герой рассказа вызывает симпатию. Поэтому будет жаль, если поломает себя. Гуманизм и сострадание, слышали, не?
Второе - мало ли кто решит, что надо на него равняться, но начать лучше сразу с бутылки игристого, а остальное приложится.
Третье - возможно герою надо что-то в жизни изменить, чтобы не было потребности ежедневно находиться во хмелю.
Четвертое - хаять незнакомых людей таким образом тоже какой-то дефект самоопределения, видимо.

Как я превратил OnePlus 3T в домашний сервер на базе postmarketOS

vpman 1 июл в 09:18

Я сначала тоже попроще выриант с Termux пробовал, но без рута ничего там продвинутого запустить не получилось. Докер, фаервол и прочее не работали, упирались в защиту Андроида. С рутом уже не стал экспериментировать. Затем Droidian поставил и тоже упёрся в какие то лимиты. Далее - PMOS. Он уже заработал как натуральный Линукс сервер, правда не вся аппаратура. Но пока мне достаточно.

Как я превратил OnePlus 3T в домашний сервер на базе postmarketOS

vpman 1 июл в 07:25

Тоже решил заморочиться с POCO X3 NFC (6/64Gb , 8 ядер) в качестве сервера. В поддерживаемых PMOS устройствах он есть. Можно поставить только консольку, без UI.
Ставится с pmbootstrap без особых проблем. Но есть нюансы :
- спец версии под устройство нет, используется generic qcom-sm7150 сборка.
- без включенного bluetooth ребутится после загрузки ОС, поэтому оставил, отключив все функции для экономии.
- ограниченное управление и мониторинг питания. Не удалось настроить отключение по достижению процента зарядки. Поэтому решил использовать розетку с таймером, чтобы регулярно отключать питание и экономить ресурс батареи.
- не видит доп. SD карту через SIM разъем. Хотя, например, TWRP с ней может работать.
- огорчило то, что не работает dual режим с зарядкой по OTG . Пока что либо зарядка, либо работа с устройствами в USB HUB (хочется подключить ethernet, и всякие USB девайсы, ). Поэтому сейчас коммуникация по WiFi + зарядка.

Докеры и прочие серверные штуки работают как положено. Энергопотребление - 1-2Вт/ч. только на батарее может дней 5-7 жить, если не сильно нагружать проц и WiFi.
В целом, можно использовать в качестве сервера для каких то не сильно нагруженных вещей. У меня там Hermes агент, например.

Как кандидат наук из Нахабино зарабатывает до 1,5 млн в месяц

vpman 30 июн в 13:30

Тоже поразило. При таких ежедневных вливаниях происходят гормональные изменения и перестройка организма. Это уже алкоголизм не лёгкой стадии. Лечиться придется в том числе и от зависимости. Жаль что не всем помогает. Знаю не по наслышке по близким людям.

Deep Research для бедных поверх Codex

vpman 18 июн в 05:20

Есть проект local deep research под докер https://github.com/LearningCircuit/local-deep-research. В связке с searxng (локальный или публичный) тоже дает неплохие результаты. Можно с локальной или дешевой LLM. Вполне себе замена perplexity

Еще есть https://github.com/itzcrazykns/vane , попроще но больше похож на perplexity по интерфейсу.

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

vpman 18 мая в 05:17

Могу дать платочек, чтобы рот вытереть.

Франкенштейн на 30 ГБ RAM: Как мы пересадили мозг Gemma в скелет DeepSeek и сломали Transformers

vpman 28 апр в 15:54

Мифический Франкенштейн мог заниматься осмысленной практической деятельностью. Стоит ли ожидать полезных артефактов от подобного подхода, кроме "ну да, и так тоже извратиться можно"?

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 25 апр в 16:35

надо в конфиге opencode прописать параметры для модели
“modalities”: { “input”: [ “text”, “image” ], “output”: [ “text” ] }

Без этого работать не будет

Детали - в документации.

2. Зачем менеджеры, если можно просто запустить exe файл.из архива релиза

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 25 апр в 06:10

Можно путь к файлу скриншота
Зачем его в докере, если он в консоли работает? ИБ?
Если у нему подключить mcp playwright, то с хорошей VL моделью он сам отлаживает веб приложения и работает с изображениями

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 25 апр в 06:04

Кажется, что практическая применимость малых, и к тому же медленных из за железа моделей очень ограничена. В большинстве популярных сценариев они будут сжирать личное время пользователя на исправления и перезапросы.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 24 апр в 19:30

Заход с другого бока: openrouter.ai . Там куча дешёвых "китайцев". есть и бесплатные, но тормозные обычно.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 24 апр в 18:36

vLLM в нативном Windows пока не фунциклирует, а с виртуализацией это уже не торт. Из коментов видно, что народу интересно удобное и доступное решение для домашек, т.е. Windows в большинстве случаев. И насчет x2 к llama.cpp выглядит преувеличением. Для одиночного пользователя без конкуренции разницы может и не будет.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 24 апр в 17:12

У меня полностью влезает в 80Gb VRAM в 3 карты, контекст ставлю до 160кб и еще можно добавить, только для parallel 1 смысла нет, т.к. после 120+кб PP начинает некомфортно долго думать, даже если попадает в кеш. На простом запросе "Расскажи о себе" дает 70 t/s.
Мой конфиг, может кому пригодится:
“.\bin_test\llama-server.exe” -m ^ f:\AI\LMStudio\models\unsloth\Qwen3.5-122B-A10B-GGUF\Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf ^ –host 0.0.0.0 ^ –port 1234 ^ -c 160000 ^ -ngl 49 ^ –split-mode layer ^ –tensor-split 3.2,1.0,1.0 ^ –main-gpu 0 ^ –flash-attn on^ –threads 6 --threads-batch 6 ^ –batch-size 2048 ^ –ubatch-size 1024 ^ –kv-unified ^ –temp 0.6 --top-p 0.95 --min-p 0.00 ^ –cache-type-k q8_0 --cache-type-v q8_0 -a “qwen3.5-122b” ^ –jinja ^ –reasoning off ^ –cache-ram 10000 ^ –mmproj f:\AI\LMStudio\models\unsloth\Qwen3.5-122B-A10B-GGUF\mmproj-BF16.gguf ^ –parallel 1 ^ –no-mmap ^ –tools all

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 24 апр в 07:38

122 всяко лучше в целом, т.к. в ней в 3.5 раза больше данных. Но последняя 3.6-35b тоже для многих задач очень даже неплоха. Надо смотреть в реальных применениях. В ютубах уже полно обзоров и сравнений.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 24 апр в 07:01

Пользуюсь. У меня она сейчас в Q4_K_XL (70Gb файл) помещается полностью в VRAM 80Gb на 3 карты в режие x8+x8+x4. Скорость 60-70 t/s на простом запросе. Если чуть уйти в RAM на пару гигабайт, то падает до 40 t/s и чем больше выгрузка в RAM тем медленнее. Модель большая для домашнего компьютера, и мне кажется что ваша конфигурация не будет выдавать комфортную скорость(хотя бы 30 тс). Но я не пользовался cmoe и ncmoe, как написано в статье. Возможно они существенно ускоряют инференс для этой модели в RAM.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

vpman 24 апр в 05:27

Можно. Pciex4 сильно не влияет на инференс, модель только грузится дольше. По сравнению с CPU скорость инференса выше. Кратность зависит от соотношения модели в VRAM и RAM. Но даже если 1 layer попадает в RAM то сразу минус 30% к скорости. И чем больше их в Ram тем хуже. У меня была одна карта на x16 4080 16гб и вторая х4 5060 16гб- с полным VRAM offload на две карты в разы быстрее для моделей с файлом от 16гб .

Как я тестировал локально новый Qwen 3.6 и Gemma 4

vpman 18 апр в 19:31

В llama.cpp любую модель можно распределить между VRAM и RAM параметром –n-gpu-layers N (или -ngl N), где N - количество layers которые загружаются в VRAM. Если 0 - то все в RAM. Если N слоев не поместятся в VRAM, будет memory overflow.
Так же для MoE моделей можно выгружать последние N экспертов в RAM (--n-cpu-moe N), если -ngl больше или равно количеству layers модели.
Есть еще более тонкая настройка через --override-tenors. Можно задать регулярку и выгружать части тензоров в любых сочетаниях в любую память.

Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM

vpman 14 апр в 05:47

На сколько мне известно, прогоняются целевые запросы (например по кодингу) через модель, и на ее роутере считается активация каждого эксперта. Те, которые наберут меньше активаций в последствии вырезаются. Проблема в том, что эксперты могут равномерно распределять веса, и их удаление может сильно ухудшить качество.

Гемму4 уже рипнули https://huggingface.co/mradermacher/gemma-4-21b-a4b-it-REAP-heretic-GGUF и еще много других на HF

Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM

vpman 13 апр в 18:01

Запустить то с офолоадом можно, но, например плотная гемма4 31б на 4090_48Gb выдает не больше 30t/s. А при офлоаде даже 1 слоя тензоров на ЦПУ скорость падает почти на треть, и с каждым слоем все сильнее. При соотношении VRAM-RAM 50 на 5, скорость с 12 потоками CPU - 3-4 t/s.
Перспективно выглядят попытки сделать REAP версии больших моделей МОЕ, где вырезаются "лишние" эксперты, которые могут не использоваться в прикладных задачах.
Надеюсь сделают обрезание для Minimax 2.7, чтобы не Q2 загружать, а Q4_M, хотя бы. Хотя и Q2 работает на удивление неплохо.

PG_EXPECTO vs GENTLEMAN v10.2: почему детальный промпт побеждает универсальную инструкцию

vpman 3 апр в 07:54

Хочется читать статью, а не лог из какой-то хрени. Логов на работе хватает.