Обновить
-3
Вячеслав@vpman

Пользователь

Отправить сообщение

Есть проект local deep research под докер https://github.com/LearningCircuit/local-deep-research. В связке с searxng (локальный или публичный) тоже дает неплохие результаты. Можно с локальной или дешевой LLM. Вполне себе замена perplexity

Еще есть https://github.com/itzcrazykns/vane , попроще но больше похож на perplexity по интерфейсу.

Могу дать платочек, чтобы рот вытереть.

Мифический Франкенштейн мог заниматься осмысленной практической деятельностью. Стоит ли ожидать полезных артефактов от подобного подхода, кроме "ну да, и так тоже извратиться можно"?

надо в конфиге opencode прописать параметры для модели
“modalities”: { “input”: [ “text”, “image” ], “output”: [ “text” ] }

Без этого работать не будет

Детали - в документации.

2. Зачем менеджеры, если можно просто запустить exe файл.из архива релиза

  1. Можно путь к файлу скриншота

  2. Зачем его в докере, если он в консоли работает? ИБ?

    Если у нему подключить mcp playwright, то с хорошей VL моделью он сам отлаживает веб приложения и работает с изображениями

Кажется, что практическая применимость малых, и к тому же медленных из за железа моделей очень ограничена. В большинстве популярных сценариев они будут сжирать личное время пользователя на исправления и перезапросы.

Заход с другого бока: openrouter.ai . Там куча дешёвых "китайцев". есть и бесплатные, но тормозные обычно.

vLLM в нативном Windows пока не фунциклирует, а с виртуализацией это уже не торт. Из коментов видно, что народу интересно удобное и доступное решение для домашек, т.е. Windows в большинстве случаев. И насчет x2 к llama.cpp выглядит преувеличением. Для одиночного пользователя без конкуренции разницы может и не будет.

У меня полностью влезает в 80Gb VRAM в 3 карты, контекст ставлю до 160кб и еще можно добавить, только для parallel 1 смысла нет, т.к. после 120+кб PP начинает некомфортно долго думать, даже если попадает в кеш. На простом запросе "Расскажи о себе" дает 70 t/s.
Мой конфиг, может кому пригодится:
“.\bin_test\llama-server.exe” -m ^ f:\AI\LMStudio\models\unsloth\Qwen3.5-122B-A10B-GGUF\Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf ^ –host 0.0.0.0 ^ –port 1234 ^ -c 160000 ^ -ngl 49 ^ –split-mode layer ^ –tensor-split 3.2,1.0,1.0 ^ –main-gpu 0 ^ –flash-attn on^ –threads 6 --threads-batch 6 ^ –batch-size 2048 ^ –ubatch-size 1024 ^ –kv-unified ^ –temp 0.6 --top-p 0.95 --min-p 0.00 ^ –cache-type-k q8_0 --cache-type-v q8_0 -a “qwen3.5-122b” ^ –jinja ^ –reasoning off ^ –cache-ram 10000 ^ –mmproj f:\AI\LMStudio\models\unsloth\Qwen3.5-122B-A10B-GGUF\mmproj-BF16.gguf ^ –parallel 1 ^ –no-mmap ^ –tools all

122 всяко лучше в целом, т.к. в ней в 3.5 раза больше данных. Но последняя 3.6-35b тоже для многих задач очень даже неплоха. Надо смотреть в реальных применениях. В ютубах уже полно обзоров и сравнений.

Пользуюсь. У меня она сейчас в Q4_K_XL (70Gb файл) помещается полностью в VRAM 80Gb на 3 карты в режие x8+x8+x4. Скорость 60-70 t/s на простом запросе. Если чуть уйти в RAM на пару гигабайт, то падает до 40 t/s и чем больше выгрузка в RAM тем медленнее. Модель большая для домашнего компьютера, и мне кажется что ваша конфигурация не будет выдавать комфортную скорость(хотя бы 30 тс). Но я не пользовался cmoe и ncmoe, как написано в статье. Возможно они существенно ускоряют инференс для этой модели в RAM.

Можно. Pciex4 сильно не влияет на инференс, модель только грузится дольше. По сравнению с CPU скорость инференса выше. Кратность зависит от соотношения модели в VRAM и RAM. Но даже если 1 layer попадает в RAM то сразу минус 30% к скорости. И чем больше их в Ram тем хуже. У меня была одна карта на x16 4080 16гб и вторая х4 5060 16гб- с полным VRAM offload на две карты в разы быстрее для моделей с файлом от 16гб .

В llama.cpp любую модель можно распределить между VRAM и RAM параметром –n-gpu-layers N (или -ngl N), где N - количество layers которые загружаются в VRAM. Если 0 - то все в RAM. Если N слоев не поместятся в VRAM, будет memory overflow.
Так же для MoE моделей можно выгружать последние N экспертов в RAM (--n-cpu-moe N), если -ngl больше или равно количеству layers модели.
Есть еще более тонкая настройка через --override-tenors. Можно задать регулярку и выгружать части тензоров в любых сочетаниях в любую память.

На сколько мне известно, прогоняются целевые запросы (например по кодингу) через модель, и на ее роутере считается активация каждого эксперта. Те, которые наберут меньше активаций в последствии вырезаются. Проблема в том, что эксперты могут равномерно распределять веса, и их удаление может сильно ухудшить качество.

Гемму4 уже рипнули https://huggingface.co/mradermacher/gemma-4-21b-a4b-it-REAP-heretic-GGUF и еще много других на HF

Запустить то с офолоадом можно, но, например плотная гемма4 31б на 4090_48Gb выдает не больше 30t/s. А при офлоаде даже 1 слоя тензоров на ЦПУ скорость падает почти на треть, и с каждым слоем все сильнее. При соотношении VRAM-RAM 50 на 5, скорость с 12 потоками CPU - 3-4 t/s.
Перспективно выглядят попытки сделать REAP версии больших моделей МОЕ, где вырезаются "лишние" эксперты, которые могут не использоваться в прикладных задачах.
Надеюсь сделают обрезание для Minimax 2.7, чтобы не Q2 загружать, а Q4_M, хотя бы. Хотя и Q2 работает на удивление неплохо.

Хочется читать статью, а не лог из какой-то хрени. Логов на работе хватает.

5 марта Unsloth переквантовали все qwen3.5, якобы с улучшением качества. При этом на 122b размер Q4_K_XL UD вырос на 10Gb и уже не подходит под мои 80Gb VRAM, пришлось скачать Q4_K_S, на 73Gb. И она на задаче с размышлением ушла в бесконечный цикл на какой то букве.
Новое - не всегда лучше старого.
Удалил, и пользуюсь предыдущей версией Q4_K_XL на 68GB - пока впечатления положительные, особенно в VL части - хорошо распознает фин. отчетность, на которой ранние модели косячили, а сейчас - 1 в 1.

Vik-on, авито. Брал недавно, с водянкой. Есть турбина, но она шумит как пылесос

Сейчас работает пополнение Alipay по российскому номеру телефона из Сбера.
Через ЛК на сайте.
Переводы->В другую страну->Китай- A wallet (или типа того) -> Номер телефона в Alipay, но с 86 в начале( 86791xxxxxxx...)
От 5000р. Курс обмена не сильно рыночный + 50 р комиссия

Вы сами назвали разницу — публичность информации. Коммерческая компания по сути своей обязана быть публичной. А человек — нет. Полиграф по отношению к человеку, это как если бы я нанял детектива, который бы выяснял подробности личной биографию владельца компании, источники происхождения капитала, криминальные и коррупционные связи, чистоту внутренней бухгалтерской отчетности, и прочие интересные вещи. И все это при добровольном участии и помощи сотрудников компании и ее владельцев. Мне такая ситуация кажется фантастической и больше подходит к сюжету утопии.
Никто не запрещает собирать информацию обо мне из публичных источников, но лезть во внутренности — это уже совсем другая история.
1

Информация

В рейтинге
5 369-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность