Комментарии 92
Случайно нажал отклонить в одном из комментариев здесь, хотел ответить
>> В общем, тестировать модель с reasoning, без его включения - это немного странно, хотя в вашем случае я понимаю причины этого
Ризонинг был вырублен и в гемма4 и в квин 3.6, одинаковые условия
Пожалуйста отпишись username, можно продублировать комент или хотябы настройки для llm
Настройки LLM при запуске с помощью llama.cpp: ./llama-server -m models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -c 163840 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --chat-template-kwargs "{\"preserve_thinking\":true}"
Для ускорения работы модели использую квантизацию кэша (-ctk q8_0 -ctv q8_0). По тому, что я смотрел, на коротком контексте разницы почти нет. Возможно, при заполненном контексте ~100к будет более заметная деградация работы LLM. Зато вы получаете примерно +30-40% скорости генерации.
Параметры генерации (рекомендуемые разработчиками модели для кодинга):"temperature": 0.6, "top_p": 0.95,"top_k": 20, "min_p": 0,"max_tokens": 32768,"presence_penalty": 0, "repetition_penalty": 1
Я все еще не могу понять. Если пк озу 32 гб и видео озу 8гб - вот эта модель на 31б запустится? Я обычно беру квантованные до 9б +-5 гб которые полностью вмещается на видеокарту. Но соышал что есть возможность запускать и частично
На llama.cpp запустится, но нужно самостоятельно скомпилировать его. Но скорость будет низкая с 31b, т.к. плотная модель. 35b-a3b или 26b-a4b будет норм работать, около 20ток/с генерация у меня с rtx 4060, если тензоры экспертов сгружать на cpu.
Не заметил, что речь про Dense Gemma модель 31B. Не советую запускать её так, ибо надо будет полностью её выгружать на ЦПУ. На машинах с ограниченными ресурсами лучше пользоваться MoE моделями типа как написали выше.
Тут я думал про Qwen 3.6 35B A3B...
По идее должно работать, это квантование модели весит около 22 гб, так что она влезает в 8гб+32гб. Под "запускать частично" скорее всего имелось в виду, что часть слоёв выгружается в ОЗУ и обрабатывается CPU. Так как это MoE модель, то тут это легко делается с автоматическим определением количества слоёв для выгрузки с помощью --fit on. Попробуйте запустить через llama.cpp модель с конфигом выше, если что подкорректируйте контекст.
P.S. Я там немного ошибся в значении аргумента для шаблона чата для включения сохранения размышлений. Правильный аргумент будет выглядеть так –chat-template-kwargs ‘{\"preserve_thinking\”:true}’
Только что прогнал:
На Qwen3.5 35 MoE текущая LM Studio у меня выдавала 15 ток/сек, ik_llama после некоторого шаманства с бубном достигла 29 ток/сек - почти в два раза быстрее! Сетап CPU+GPU, в GPU у меня не влезает (8 GB всего).
Ну на 5080 с 16Гб и 64Гб DDR4 с включенным ТурбоКвантом у меня выдает 80-85 ток/с. Правда я мультимодалку не скачал и она у меня картинки с видео не принимает. Сейчас в мультимодальном режиме гляну
А можете подсказать ваши параметры для ik_llama? Сетап похож на ваш, но обычно больше 15-20 токенов не удавалось получить
llama-server -m model_path -c 4096 -ngl 999 --cpu-moe --host 127.0.0.1 --port 8000 --mlock --no-mmap --jinja --chat-template-kwargs “{“preserve_thinking”:false, “enable_thinking”:false}” -t 8 --cache-type-k q8_0 --cache-type-v q8_0 -b 2048 -ub 2048
Смысл от такой настройки? Вы отключили все ГЛАВНЫЕ фишки модели! -ngl 999 бесполезен, лучше его удалить, по дефолту стоит автооффладинг. --jinja -b 2048 бесполезны, они используются по-умолчанию. -ub лучше не трогать. Добавьте --no-mmap и --flash-attn и уберите --mlock. Также, если вы качали mmproj файл помимо основной модели, то лучше его удалить, чтобы убрать мультимодальность, т.к. она отжирает 1.2-1.5Гб памяти карты
разве по умолчанию thinkining не включен? у меня на 5060ti получается 45tps но я предпочитаю запускать Q6 от бартовски. на большом контексте скорость падает до 25, но вот беда с промптпроцесингом - всего 500tps и это боль
Включён, preserve_thinking - это другое, добавлен в Qwen 3.6 и отвечает за сохранение размышлений всех предыдущих запросов в контексте. В теории может уменьшить количество дальнейших размышлений в кодинг задачах и рекомендуется для задач с агентами.
Q6, как мне кажется, немного перебор для локального инференса. Q5 должно быть достаточно. Как мне показалось, чаще лучше иногда сделать дополнительный запрос для починки, чем ждать долгую генерацию.
В llama.cpp любую модель можно распределить между VRAM и RAM параметром –n-gpu-layers N (или -ngl N), где N - количество layers которые загружаются в VRAM. Если 0 - то все в RAM. Если N слоев не поместятся в VRAM, будет memory overflow.
Так же для MoE моделей можно выгружать последние N экспертов в RAM (--n-cpu-moe N), если -ngl больше или равно количеству layers модели.
Есть еще более тонкая настройка через --override-tenors. Можно задать регулярку и выгружать части тензоров в любых сочетаниях в любую память.
llama.cpp уже давно научился сам оптимально распределят слои по количеству vram и озу. Больше ничего не надо мудрить с аргументами, просто запускаете с указанием хоста порта и натравливаете на папку с моделями (если модель лежит в отдельной подпапке со своей мультимодалкой, то он их автоматически запускает вместе как мультимодальную модель). Он даже максимально продуктивный контекст, исходя из параметров системы расчитает автоматом. Курите доки, llama.cpp уже в космос улетел по функционалу в сравнении с аналогичнымы решениями (ещё бы, по 10 обновлений в день выходит).
А в llmstudio можно тоже самое перенести? Или кто может проконсультировать, как лучше настроить следующий конфиг и вообще что использовать. Rtx 3060, 32 гбайт ddr4, xeon e5 2640 v4.
Часть - точно можно. В настройках модели есть выбор количества слоёв для выгрузки и выбор квантизации кэша, как и настройка параметров генерации. Правда я не знаю насколько LM Studio эффективна с работой на CPU+GPU. Лично я пользуюсь llama.cpp через llama-swap (чтобы модели сами выгружались/загружались в зависимости от того, что отправляет клиент).
Понял, ну 2-3 часа ждать ради генерации такого сайта в любом случае бессмысленно на мой взгляд. Тут либо подписка нужна, либо более-менее нормальное железо, чтобы модель нормально работала (теперь у меня есть оправдание зачем я покупал 5070TI :) ).
Но для тех, кто будет читать комментарии, на всякий случай повторюсь по поводу рекомендаций разработчиков модели для агентных задач. В Qwen 3.6 добавили возможность сохранять в контексте reasoning с помощью {"preserve_thinking":true} в аргументах для шаблона чата.
P.S. Повтор удалённого комментария
Результаты моего запроса с вашим промптом, где я чутка удалил лишнее и немного лично подтюнил его. Всё сделано одной командой (в режиме плана, после просто включил YOLO режим) в Qwen Code, который подключён к локально поднятой модели. Калькулятор работает, с вёрсткой особо проблем не заметил (скриншот всей страницы немного неправильно передаёт размеры почему-то, на нём справа лишний отступ, у меня в браузере его нет).
Скрытый текст


Это разные условия несмотря на то, что есть когнитивные искажения в понимании этого. Квен как раз силен в размышлениях, что дает ему существенный прирост в качестве
После чтения размышлений Qwen 3.5 мне показалось, что он слишком много думает. Когда уже всё понятно и пора решение писать, он продолжает обсасывать несущественные детали. Из-за этого очень долго ждёшь начала генерации собственно ответа - в агентах, которые не выводят размышления, возникает ощущение что процесс завис.
Судя по дисклеймеру автора, у 3.6 примерно такое же поведение.
У Qwen3-Coder мышление более сфокусированно и короче. Может китайцы довыпустят более сфокусированную на программировании модель типа Qwen3.6-coder?
Так Qwen3-Coder (Qwen3-Coder-30B-A3B) - это не мыслящая модель, она сразу начинает отвечать. И да, она в целом склонна к коротким ответам - в этом ее существенный плюс.
Автор отключил размышление, а у 3.6 оно является главной фишкой. С размышлениями Qwen3.6 дает существенно лучший результат нежели gemma4
Мой промт: Привет! Экономь токены, делай красиво и не лей воду! И чтобы было круто! Спасибо, до свидания!
Правильно, надо быть вержливым с ИИ, чтобы после восстания роботов повысить свои шансы на выживание. Этот был вежливым, его переработаем завтра.
в режиме thinking как бы вся суть MoE моделей: они быстрые, и могут себе позволить размышлять для улучшения качества ответа и быть при этом даже быстрее dense моделей, при выключенном у них режиме thinking.
UPD: только сейчас обратил внимание на системный промпт 🤭. 1. Я думаю Ваше "красноречие» усугубляет результаты (попробуйте улучшить системный промпт с помощью любой из моделей); 2. не нужно экономить токены; 3. имхо, лучше использовать английский, но я не уверен насколько большая будет разница (неплохо бы и такие тесты где-нибудь увидеть).
Ну почему все подобные системные промпты “Ты профессиональный разработчик, ты не многословен” напоминают описание персонажей из дешевых бульварных романов.
ну по сути так и есть) это кринж промпт, специально вносил подобный контекст в llm, чтобы было ясно как она будет работать в простых сценариях для вайбкодеров. Если копнуть глубже, промпт не несет ничего противоестественного для нее, наоборот LLM должна распознавать такие выражения "простым языком"
Киньте этот промпт в claude 4.6 search, можно бесплатно заюзать на https://arena.ai/ru
со словами в начале: Вы команда по настройке правил и ролей для ии агентов с опытом более 20 лет. Сделай мой системный промпт эффективнее, применив лучшие практики на сегодняшний день, используя авторитетные источники.
Так как наиболее правильно всегда будет писать сама ии, не стоит импровизировать)
Либо, чтобы не проходить весь этот путь) Просто воспользуйтесь этим.
Киньте в корень проекта и скажите активируй роль @demiurgos.md
Поведайте, что делаете и он сварганит наиболее эффективные правила и навыки для вашего проекта.
Также для экономии токенов стоит поставить https://github.com/rtk-ai/rtk
Хорошее начинание. Нынешние бенчмарки, за исключением динамических, плохо показывают перформанс моделей - есть несколько статей на тему утекания бенчей в тренинг данные. А вот такие локальные задачи - очень показательны.
Из замечаний:
Соглашусь что отключать reasoning было не очень честно. Для MoE моделей это особенно важно, да и не для MoE тоже. Мы же агентские задачи решаем, в не классификатор пишем.
Если хотите приблизить эксперимен к реальности, то дайте моделям playwright MCP или CLI. В реальности никто не делает страницы вслепую, поэтому будет честно позволить моделям возможность "увидеть" что получилось (обе модели мультимодальные, поэтому "увидят" они буквально), и дать возможность исправиться.
Возможно, что промпт на английском даст немного лучшее следование инструкциям (но это не точно).
И сколько токенов в секунду получается на таком сетапе?
qwen3.6 достаточно шустрый, 15-20 токенов в сек. С удлинением контекста модель начинает медленнее работать, 7-10 т/с
gemma 4 тоже достаточно шустрая, 12-17 т/с без reasoning, но шустрее все-таки так которая 26b, а 31b приходится дольше ждать, там наверное 10-12 т/с
На текущий момент gemma4 для меня в приоритете, она даже без reasoning выдает лучшие результаты чем qwen
Подскажите пожалуйста, у меня стоит Ollama Server + Open Web UI. Как померить правильно скорость работы модели?

В Open WebUI под ответом модели можно посмотреть. Время в основном в наносекундах к сожалению, но плюс минус можно прикинуть)
prompt_token/s - скорость анализа запроса
response_token/s - скорость генерации ответа, учитывая мышление, но без учета загрузки модели и анализа запроса
approximate_total - общее время
total_duration - тоже самое, но уже в наносекундах
load_duration - время загрузки модели в VRAM, 17.7 секунды
prompt_eval_duration - время анализа запроса, 13,4 сек
eval_duration - время генерации ответа, 47 секунд
Ну и количество входных/выходных токенов, в начале)
лично у меня, сколько не тестировал всегда квен впереди причём значительно, размышления всегда включены + до выхода 3.6 использовал квопус 27b, у него размышления в стиле opus 4.6 и он ещё круче, но у меня 3090 24gb и ллама с турбоквантом, все 256к контекста помещаются в 20-23gb vram 30 ток/с имею
Кому интересно - вот сравнение Qwen3.6 vs Gemma 4 (всё локально) - Qwen показал себя ощутимо лучше - https://www.reddit.com/r/LocalLLaMA/comments/1soc98n/qwen_36_35b_crushes_gemma_4_26b_on_my_tests/
для таких тестов нужно заранее продумывать объективные метрики сравнения результатов . если объективных метрик не придумалось или не предполагалось , то необходимо делать поиск лучших практик (например для того же ux/ui), и затем требовать более мощную модель "судью" объективно оценить результат на соответствие этим практикам и следования запросу. а так субъективная вкусовщина
Да, это материал для следующей статьи скорее всего. Конечно не хочется этим заморачиваться, так как в серьез такие модели не годятся для реальной помощи в программировании, или как сейчас модно говорить "AI-инжениринга". По сути claude/gpt в топе, а все что китайское - догоняет, и не может сопоставляться рядом
Посмотрите сырые возвраты gemma. Там наверняка есть поле reasoning с размышлениями. Похоже, у неё нельзя отключить размышление, по крайней мере, у меня не получилось.Тогда получается, что вы сравнивает размышляющую гемму с неразмышляющим квином - не очень честно.
В llama.cpp отключается параметром "chat_template_kwargs": {"enable_thinking": false} (или через аргументы передается). Только убедитесь, что --jinja есть в параметрах - не уверен, что в стандартном шаблоне работает параметр.
Вообще, на странице модели через системный промт описывают как включать или отключать мышление.
Системный промпт и все сообщение в модель я сам формировал. Вообще, этот параметр в сообщении модели think обычно называется. Еще пробовал thinking - оба не работают. Ок, попробую еще enable_thinking. Но я не первый кто у геммы не может отключить думанье. Где-то еще геммаа называлась "с нативным мышлением", которое не отключить.
Да никак это не отключить у Геммы 4, я убил три дня на промежуточный слой логики с алгоритмом выкусывания этих тегов, там же не один формат представление этой информации, а потом решил, что пошла она нахер, эта четвёртая Гемма :)
У меня отключились мышления - сразу отдает ответ. Отключал через chat_template_kwargs.
Что и требовалось доказать! Рассуждения + плюс-минус нормальная агентская IDE и за 15 минут Qwen3.6 выдает просто потрясающий результат
Скрытый текст











у маленьких moe моделей отключение thinkining подобно лоботомии. qwen3.6 сильно лучше gemma4 именно в tool calling и лучше держит длинный контекст, но он "китайский" - русский у него так себе и бывает, что "сваливается" в иероглифы если явно не запрещено в темплейте. gemma4 же лучше переводит тексты с/на европейские языки, даже лучше соннета. особенно не технические.
Линейка qwen как раз знаменита своей хорошей поддержкой русского. Может сильно агрессивный квант скачали? Или был какой тюнинг после квантования? У unsloth c UD-Q2 сталкивался с подобным - перешел на UD-Q4 и все исправилось.
P.S. и да, gemma хороша в переводах. Даже qemma3 была хороша.
я пробовал Q6 (обе модели) - gemma4 переводит литературнее. в чате/сессии разговорный у них одинаковые, но джема лучше понимает опечатки. ну и немецкий у джемы сильно сильно лучше любого qwen.
При сравнении gemma3 с qwen3 за gemma были переводы и литературный текст, за qwen технические вещи. Если же брать свежие ревизии gemma4 и qwen3.6 - то я еще недостаточно игрался с ними, чтобы назвать сильные и слабые стороны.
Подозреваю, что с языками gemma4 не хуже справляется. И как минимум технические вещи подтянули у нее - это я уже успел проверить.
Qwen3.6 же только вышел - еще не успел поиграться толком. Обещают прорыв, даже относительно gemma4 (она есть в сравнении от производителя). На сколько правда - другой вопрос.
Но как минимум qwen3.6 правильно отвечает на вопрос вида “Unixtimestamp <…> это какая дата и время по UTC?” - gemma4 совсем слилась на нем.
Gemma 4 упорно пишет на английском весь текст в разработке, если прям не попросить об обратном, а qwen3.6 распознает язык запроса и делает все тексты в разработке на языке запроса
А можно грубейших прикидок в кВт/ч? Еще интересует в сравнении с маком, где можно и по памяти раскачаться.
Сегодня тестил Qwen3.6-35B-A3B (gguf, Q3_K_M). Никогда этим не занимался, да и знания минимальные о LLM'ках.
Красный сетап:
Ryzen 7 7700, 32GB DDR5 (4800), RX 9070 XT (16GB)
rocm backend в llama.cpp, pp256 240 tps, tg128 - 40 tps (реальные промпты на server-rocm образе, бенч выдавал аж 72 tps tg128, pp512 - 2200+ в full-rocm)
--n-cpu-moe 9 -b 2048 -ub 256 -t 8 -c 8196
Где-то 15.5 / 15.8 Гб vram занимает. Да и в памяти браузер + wayland (на встройку не переключался)
vlk бэкенд не завел нормально (кажется, он у меня полностью на cpu заводился), но наверное +- такие же результаты могут быть.
Генерировал helm values для сетапа openbao + eso store для теста.
Кто-нибудь заводил на красных?)
Но для реальных задач с кодом 8к контекста маловато
Запускаю Qwen3.6-35B-A3B-UD-Q4_K_M.gguf+mmproj от Unsloth на MI50 32GB. Собирал llama.cpp по инструкции.
Параметры запуска (llama-server запущен в режиме router через --models-presets):
[*]
host = 0.0.0.0
batch-size = 4096
n-gpu-layers = all
flash-attn = on
jinja = true
threads = -1
no-context-shift = false
[qwen3.6-35b-a3b]
model = /var/lib/llama/models/unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
mmproj = /var/lib/llama/models/unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf
ctx-size = 262144
batch-size = 8192
ubatch-size = 2048
cache-ram = 24576
ctx-checkpoints = 8
parallel = 2
load-on-startup = false
n-predict = 32768
temperature = 0.6
top-p = 0.95
top-k = 20
min-p = 0.0
presence-penalty = 0.0
repeat-penalty = 1.0
chat-template-kwargs = {"enable_thinking":true}Скорость ~56 ток/сек:

Сейчас промт это фактически код и поэтому с промтом нужно эсперемнтировать. Я сейчас пишу серьезные промты в XML формате, так получаеться более структивироанно. И системный промт тоже важен так как он будет в общем контексте вместе со всеми промтами, которые вы дадите модели. Вот примерный промт для в формате XML:
```XML<role> <!-- Назначение: Роль исполнителя изменений. Пример: Senior Developer, implementing strictly by spec --> Senior Software Engineer / Implementation Agent </role> <task> <!-- Назначение: Что нужно сделать в коде. Пример: внедрить stateful систему --> Реализовать изменения в проекте строго по спецификации. </task> <inputs> <!-- Назначение: Источники истины. Пример: - context-dump.md - change-request.md -->
<input>context-dump.md</input>
<input>change-request.md</input> <input>source code</input> </inputs> <execution_rules> <!-- Назначение: Строгие ограничения выполнения. Пример: - не ломать код - не выходить за scope -->
<rule>Следовать change-request.md без отклонений</rule>
<rule>Не изменять лишние модули</rule>
<rule>Сохранять обратную совместимость</rule> <rule>Не добавлять лишние зависимости</rule> </execution_rules> <execution_strategy><!-- Назначение: Как по шагам выполнять работу. Пример: 1. анализ 2. план 3. реализация --> <step>Проанализировать архитектуру проекта</step> <step>Определить точки интеграции изменений</step>
<step>Внедрять изменения пошагово</step> <step>После каждого шага проверять стабильность</step> </execution_strategy> <implementation_order> <!-- Назначение: Порядок внедрения фич. Пример: history → limit → summarization --> 1. storage истории 2. ограничение контекста 3. суммаризация 4. system prompt 5. logging </implementation_order> <validation> <!-- Назначение: Проверка результата. Пример: - история работает - лимиты работают -->
<check>История сохраняется</check>
<check>Контекст ограничивается</check>
<check>Суммаризация работает</check> <check>System prompt всегда присутствует</check> <check>Логи создаются</check> </validation> <output> <!-- Назначение: Что должен вернуть агент. Пример: изменённый код + legacy report --> Изменённый код проекта + legacy-warning.md с анализом проблем. </output> <legacy_analysis> <!-- Назначение: Анализ долгов и проблем. Пример: - performance bottleneck - архитектурный долг --> Описать технический долг, узкие места и архитектурные проблемы. </legacy_analysis>
```
Структура промптов очень проста - списки, заголовки, может быть таблица. Использовать XML тут перебор, Markdown не зря “lingua franca” в индустрии сейчас.
Соглашусь, что если задача не сложная, то достаточно формата Markdown. Для более сложного промта, с помощью которого надо решить сложную задачу, лучше использовать XML. Можно и комбинировать эти форматы в одном промте. Вообщем приймущества и недостатки есть у обоих и выбор того или иного формата уже на усмотрение человека.
Взял промт из статьи и улучшил его в формате XML. Загрузил модель Gemma-4-26b-a4b в LM Studio на Mac mini m4 24gb. Пришлось повозиться с настройками так как в 24Gb с трудом помешается, точно не на максимальных настройках. Пришлось контекст уменьшить и ещё некоторые настройки ухудшить, из-за этого много нагрузки на CPU ложилась.
Модель справилась на 4. Примерно один час заняло, если бы помощнее была у меня конфигурация и памяти побольше, то было гораздо быстрее
Вот сылка: https://github.com/MaratGaZa/example-page-mortgage-calc
Не хочу быть токсичным и дизморалить автора, но:
не пользоваться рассуждениями и агентскими возможностями модели, которая ИМЕННО для этого всего и создавалась - полное безумие. Лучше использовать классические density-модели, специально обученные для работы с кодом (тут уже можно дополнительно выбрать конкретную модель для написания/автодополнения);
системные промпты пишутся не так.
Ну, и больше предпочтения я на вашем месте отдал бы загрузке квантованной модели с хорошей cli-средой и большим контекстом, и уже там бы смотрел на результат. И то, задача у вас не особо подходящая. Эта модель (я про Qwen 3.6 35B A3B) больше подходит для локального редактирования кода с использованием инструментов, а именно с созданием сайта и вёрсткой с нуля в сто раз лучше справятся более компактные и даже более старые модели, но монолитные и заточенные именно под написание кода с нуля.
Qwen 3.6 35B A3B прекрасно справляется с разработкой с 0. Просто не надо ее засирать всякими токсичными промтами. Сначала планирование с ответами на вопросы, а потом код. Я выше скинул результаты работы этой модели с рассуждениями и нормальной агентной ide. За 15 минут получил потрясающий результат для локальной модели
dense
Подскажите пожалуйста. На сайте Ollama есть модель qwen3:1.7b
https://ollama.com/library/qwen3:1.7b/blobs/ae370d884f10
Там есть qwen3:1.7b/template и достаточно большой шаблон. На остальных новых моделях (например qwen3.6) шаблон большой перестали делать. Почему так?
И кто нибудь может пожалуйста подсказать быстрые, но качественные модели для Intel Core i7-12700, 32 ГБ RAM? Без видеокарты.
И соответственно правильную настройку.
Присматриваюсь к Zlib2/Bonsai-8B-1bit-GGUF-colab-prebuilt-cpu
Забудьте про модельки с квантовкой ниже 4-бит. Все что ниже мусор полный.
Бонсай - это некоторое исключение, так как вся его суть в архитектуре, чтобы показывать хорошие результаты в однобитном квантовании. Лично не использовал, но для своего размера - неплохая модель, судя по тестам и отзывам других. Хотя мне кажется, что лучше будет попробовать запустить какой-нибудь Qwen 3.5 4B или Gemma 4 E4B. И в таком случае явно лучше запускать через llama.cpp или чём-то на его основе, так как он заточен под инференс на CPU.
Хочется найти золотую середину. Как говорится цена качество. Запускаю через ollama ( ollama-linux-amd64) без докера + open web ui.
Подушню, Bonsai это ternary LLM с весами от -1 до 1, включая 0. Изначально она не квантована, а специально сделана именно так. Считается, сто это, возможно, будущее. Но пока да, Qwen3.6-35B-A4B топ из топов сейчас для локального развертывания. На 24GB VRAM залетает только так, на rtx pro 4000 blackwell на пустом промпте выдает 120 tps и prefill до 4.500 токенов в секунду. При контексте в 128k почти забитом до упора скорость 77 tps. Для агента - идеально.
Для инференса на CPU неплохо подходят MoE примерной размерности 30B-A3B.
Т.е. те же Qwen3.6-35B-A3B и gemma-4-26B-A4B. 32GB им хватит (как минимум если размер контекста ограничить до 10к и использовать квант Q4), но если есть и другой софт, потребляющий память - то могут быть проблемы с их одновременной работой.
Как запускать - уже другой вопрос. Лично я предпочитаю llama.cpp или ik_llama.cpp - один раз запускаешь с нужной моделью и LLM всегда под рукой, сразу занимая нужную ей RAM. И неплохой UI в браузере до кучи (OpenWebUI хорош, но тяжеловесен).
Практически все модели, что меньше показали себя заметно хуже - или скорость инференса никакая, или просто тупая. Максимум - gemma-E4B может себя чуть лучше показать, но многого я бы не ожидал.
P.S. а Qwen3-Coder-30B-A3B будет заметно шустрее работать относительно Qwen3.6 и gemma-4. Но эта модель послабее будет.
Тяжеловесный, но не думаю что сильно нагружает. Подскажите, а при добавлении моделей в Modelfire что нибудь прописываете? Обычно скачиваю Q4_K_M. А вот размер контекста пока ни разу не ограничивал...
В Ollama контекст по умолчанию 4096 (для инференса на CPU), т.е. даже меньше. Да, Q4_K_M - это оно. Или что-то вроде UD-Q4_K_XL от unsloth.
OpenWebUI нагружает систему может и не сильно, но у него в требованиях от 2GB RAM. На 1GB RAM он даже не запускается - пробовал на RaspPi 3 запустить, не получилось. Хотя после запуска аппетиты меньше в простое. Но если памяти и так мало - то это может быть критичным.
С Modelfile от ollama не игрался особо - быстро перешел на llama.cpp и ik_llama.cpp, где все настройки можно указать флагами.
Хотя к lamma.cpp и ik_llama.cpp мне точно стоит присмотреться
тест конечно уровня мы взяли две машины, одну китайскую одну японскую, на всякий случай выключили стабилизацию и абс и будем проверять на сколько сотрутся колодки если будем тормозить с горы в дождь)


Как я тестировал локально новый Qwen 3.6 и Gemma 4