x4team_only18 апр в 13:26

Как я тестировал локально новый Qwen 3.6 и Gemma 4

Средний

8 мин

22K

JavaScript * Текстовые редакторы и IDE * Программирование * ReactJS * Open source *

Туториал

+28

Комментарии 92

x4team_only 18 апр в 16:23

Случайно нажал отклонить в одном из комментариев здесь, хотел ответить

>> В общем, тестировать модель с reasoning, без его включения - это немного странно, хотя в вашем случае я понимаю причины этого

Ризонинг был вырублен и в гемма4 и в квин 3.6, одинаковые условия

x4team_only 18 апр в 16:27

Пожалуйста отпишись username, можно продублировать комент или хотябы настройки для llm

HellByte2 18 апр в 16:36

Настройки LLM при запуске с помощью llama.cpp:
./llama-server -m models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -c 163840 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --chat-template-kwargs "{\"preserve_thinking\":true}"
Для ускорения работы модели использую квантизацию кэша (-ctk q8_0 -ctv q8_0). По тому, что я смотрел, на коротком контексте разницы почти нет. Возможно, при заполненном контексте ~100к будет более заметная деградация работы LLM. Зато вы получаете примерно +30-40% скорости генерации.

Параметры генерации (рекомендуемые разработчиками модели для кодинга):
"temperature": 0.6, "top_p": 0.95,"top_k": 20, "min_p": 0,"max_tokens": 32768,"presence_penalty": 0, "repetition_penalty": 1

Weron2 18 апр в 18:22

Я все еще не могу понять. Если пк озу 32 гб и видео озу 8гб - вот эта модель на 31б запустится? Я обычно беру квантованные до 9б +-5 гб которые полностью вмещается на видеокарту. Но соышал что есть возможность запускать и частично

Pand5461 18 апр в 18:30

На llama.cpp запустится, но нужно самостоятельно скомпилировать его. Но скорость будет низкая с 31b, т.к. плотная модель. 35b-a3b или 26b-a4b будет норм работать, около 20ток/с генерация у меня с rtx 4060, если тензоры экспертов сгружать на cpu.

HellByte2 18 апр в 18:37

Не заметил, что речь про Dense Gemma модель 31B. Не советую запускать её так, ибо надо будет полностью её выгружать на ЦПУ. На машинах с ограниченными ресурсами лучше пользоваться MoE моделями типа как написали выше.

Тут я думал про Qwen 3.6 35B A3B...
По идее должно работать, это квантование модели весит около 22 гб, так что она влезает в 8гб+32гб. Под "запускать частично" скорее всего имелось в виду, что часть слоёв выгружается в ОЗУ и обрабатывается CPU. Так как это MoE модель, то тут это легко делается с автоматическим определением количества слоёв для выгрузки с помощью --fit on. Попробуйте запустить через llama.cpp модель с конфигом выше, если что подкорректируйте контекст.

P.S. Я там немного ошибся в значении аргумента для шаблона чата для включения сохранения размышлений. Правильный аргумент будет выглядеть так –chat-template-kwargs ‘{\"preserve_thinking\”:true}’

janvarev 18 апр в 19:20

Только что прогнал:

На Qwen3.5 35 MoE текущая LM Studio у меня выдавала 15 ток/сек, ik_llama после некоторого шаманства с бубном достигла 29 ток/сек - почти в два раза быстрее! Сетап CPU+GPU, в GPU у меня не влезает (8 GB всего).

nikulin_krd 18 апр в 19:42

Ну на 5080 с 16Гб и 64Гб DDR4 с включенным ТурбоКвантом у меня выдает 80-85 ток/с. Правда я мультимодалку не скачал и она у меня картинки с видео не принимает. Сейчас в мультимодальном режиме гляну

janvarev 20 апр в 06:43

А ТурбоКвант как рекомендуете настроить? Не работал с ним.

nikulin_krd 20 апр в 07:34

Это надо форк собирать. В офф репозитории его нет

Lyvironix 20 апр в 05:59

А можете подсказать ваши параметры для ik_llama? Сетап похож на ваш, но обычно больше 15-20 токенов не удавалось получить

janvarev 20 апр в 06:37

llama-server -m model_path -c 4096 -ngl 999 --cpu-moe --host 127.0.0.1 --port 8000 --mlock --no-mmap --jinja --chat-template-kwargs “{“preserve_thinking”:false, “enable_thinking”:false}” -t 8 --cache-type-k q8_0 --cache-type-v q8_0 -b 2048 -ub 2048

nikulin_krd 20 апр в 07:40

Смысл от такой настройки? Вы отключили все ГЛАВНЫЕ фишки модели! -ngl 999 бесполезен, лучше его удалить, по дефолту стоит автооффладинг. --jinja -b 2048 бесполезны, они используются по-умолчанию. -ub лучше не трогать. Добавьте --no-mmap и --flash-attn и уберите --mlock. Также, если вы качали mmproj файл помимо основной модели, то лучше его удалить, чтобы убрать мультимодальность, т.к. она отжирает 1.2-1.5Гб памяти карты

steus_au 19 апр в 05:36

разве по умолчанию thinkining не включен? у меня на 5060ti получается 45tps но я предпочитаю запускать Q6 от бартовски. на большом контексте скорость падает до 25, но вот беда с промптпроцесингом - всего 500tps и это боль

HellByte2 19 апр в 08:07

Включён, preserve_thinking - это другое, добавлен в Qwen 3.6 и отвечает за сохранение размышлений всех предыдущих запросов в контексте. В теории может уменьшить количество дальнейших размышлений в кодинг задачах и рекомендуется для задач с агентами.

Q6, как мне кажется, немного перебор для локального инференса. Q5 должно быть достаточно. Как мне показалось, чаще лучше иногда сделать дополнительный запрос для починки, чем ждать долгую генерацию.

vpman 18 апр в 19:31

В llama.cpp любую модель можно распределить между VRAM и RAM параметром –n-gpu-layers N (или -ngl N), где N - количество layers которые загружаются в VRAM. Если 0 - то все в RAM. Если N слоев не поместятся в VRAM, будет memory overflow.
Так же для MoE моделей можно выгружать последние N экспертов в RAM (--n-cpu-moe N), если -ngl больше или равно количеству layers модели.
Есть еще более тонкая настройка через --override-tenors. Можно задать регулярку и выгружать части тензоров в любых сочетаниях в любую память.

Incognito4pda 18 апр в 22:15

llama.cpp уже давно научился сам оптимально распределят слои по количеству vram и озу. Больше ничего не надо мудрить с аргументами, просто запускаете с указанием хоста порта и натравливаете на папку с моделями (если модель лежит в отдельной подпапке со своей мультимодалкой, то он их автоматически запускает вместе как мультимодальную модель). Он даже максимально продуктивный контекст, исходя из параметров системы расчитает автоматом. Курите доки, llama.cpp уже в космос улетел по функционалу в сравнении с аналогичнымы решениями (ещё бы, по 10 обновлений в день выходит).

Bizonozubr 19 апр в 14:06

А в llmstudio можно тоже самое перенести? Или кто может проконсультировать, как лучше настроить следующий конфиг и вообще что использовать. Rtx 3060, 32 гбайт ddr4, xeon e5 2640 v4.

HellByte2 19 апр в 15:37

Часть - точно можно. В настройках модели есть выбор количества слоёв для выгрузки и выбор квантизации кэша, как и настройка параметров генерации. Правда я не знаю насколько LM Studio эффективна с работой на CPU+GPU. Лично я пользуюсь llama.cpp через llama-swap (чтобы модели сами выгружались/загружались в зависимости от того, что отправляет клиент).

nikulin_krd 19 апр в 16:57

LM Studio это надстройка над llama.cpp так что все можно

Bizonozubr 19 апр в 18:41

Просто в графическом виде в настройках я не все параметры нахожу.

nikulin_krd 19 апр в 18:55

Их там действительно нет. Нужно выбрать или удобство LMStudio или голый llama.cpp, который есть форкнутый и с TurboQuant

HellByte2 18 апр в 16:35

Понял, ну 2-3 часа ждать ради генерации такого сайта в любом случае бессмысленно на мой взгляд. Тут либо подписка нужна, либо более-менее нормальное железо, чтобы модель нормально работала (теперь у меня есть оправдание зачем я покупал 5070TI :) ).

Но для тех, кто будет читать комментарии, на всякий случай повторюсь по поводу рекомендаций разработчиков модели для агентных задач. В Qwen 3.6 добавили возможность сохранять в контексте reasoning с помощью {"preserve_thinking":true} в аргументах для шаблона чата.

P.S. Повтор удалённого комментария
Результаты моего запроса с вашим промптом, где я чутка удалил лишнее и немного лично подтюнил его. Всё сделано одной командой (в режиме плана, после просто включил YOLO режим) в Qwen Code, который подключён к локально поднятой модели. Калькулятор работает, с вёрсткой особо проблем не заметил (скриншот всей страницы немного неправильно передаёт размеры почему-то, на нём справа лишний отступ, у меня в браузере его нет).

Скрытый текст

x4team_only 18 апр в 16:35

>> В Qwen 3.6 добавили возможность сохранять в контексте reasoning с помощью {"preserve_thinking":true} в аргументах для шаблона чата

Спасибо, это важна информация, проверю как оно работает

nikulin_krd 18 апр в 16:48

Это разные условия несмотря на то, что есть когнитивные искажения в понимании этого. Квен как раз силен в размышлениях, что дает ему существенный прирост в качестве

AcckiyGerman 20 апр в 07:01

После чтения размышлений Qwen 3.5 мне показалось, что он слишком много думает. Когда уже всё понятно и пора решение писать, он продолжает обсасывать несущественные детали. Из-за этого очень долго ждёшь начала генерации собственно ответа - в агентах, которые не выводят размышления, возникает ощущение что процесс завис.

Судя по дисклеймеру автора, у 3.6 примерно такое же поведение.

У Qwen3-Coder мышление более сфокусированно и короче. Может китайцы довыпустят более сфокусированную на программировании модель типа Qwen3.6-coder?

SabMakc 20 апр в 07:19

Так Qwen3-Coder (Qwen3-Coder-30B-A3B) - это не мыслящая модель, она сразу начинает отвечать. И да, она в целом склонна к коротким ответам - в этом ее существенный плюс.

nikulin_krd 20 апр в 07:42

Автор отключил размышление, а у 3.6 оно является главной фишкой. С размышлениями Qwen3.6 дает существенно лучший результат нежели gemma4

maaGames 18 апр в 16:27

Мой промт: Привет! Экономь токены, делай красиво и не лей воду! И чтобы было круто! Спасибо, до свидания!

Правильно, надо быть вержливым с ИИ, чтобы после восстания роботов повысить свои шансы на выживание. Этот был вежливым, его переработаем завтра.

kukovik 20 апр в 21:42

Этот был вежливым -- слабак и конъюнктурщик!

Allirey 18 апр в 17:05

в режиме thinking как бы вся суть MoE моделей: они быстрые, и могут себе позволить размышлять для улучшения качества ответа и быть при этом даже быстрее dense моделей, при выключенном у них режиме thinking.

UPD: только сейчас обратил внимание на системный промпт 🤭. 1. Я думаю Ваше "красноречие» усугубляет результаты (попробуйте улучшить системный промпт с помощью любой из моделей); 2. не нужно экономить токены; 3. имхо, лучше использовать английский, но я не уверен насколько большая будет разница (неплохо бы и такие тесты где-нибудь увидеть).

x4team_only 18 апр в 17:58

ниже ответил, что кринж промпты тоже должны нормально обрабатываться, сильные LLM не видят в них проблем. Ну и главное, чтобы условия были одинаковы для всех, ведь тесты на это и рассчитаны

nikulin_krd 18 апр в 18:58

Системный кринж-промт все же проблема и проблема серьезная причем для всех

x4team_only 18 апр в 20:31

В следующий раз уберу системные)

el_mago 18 апр в 17:12

Ну почему все подобные системные промпты “Ты профессиональный разработчик, ты не многословен” напоминают описание персонажей из дешевых бульварных романов.

x4team_only 18 апр в 17:27

ну по сути так и есть) это кринж промпт, специально вносил подобный контекст в llm, чтобы было ясно как она будет работать в простых сценариях для вайбкодеров. Если копнуть глубже, промпт не несет ничего противоестественного для нее, наоборот LLM должна распознавать такие выражения "простым языком"

Axelaredz 19 апр в 10:35

Киньте этот промпт в claude 4.6 search, можно бесплатно заюзать на https://arena.ai/ru
со словами в начале: Вы команда по настройке правил и ролей для ии агентов с опытом более 20 лет. Сделай мой системный промпт эффективнее, применив лучшие практики на сегодняшний день, используя авторитетные источники.

Так как наиболее правильно всегда будет писать сама ии, не стоит импровизировать)

Либо, чтобы не проходить весь этот путь) Просто воспользуйтесь этим.
Киньте в корень проекта и скажите активируй роль @demiurgos.md
Поведайте, что делаете и он сварганит наиболее эффективные правила и навыки для вашего проекта.

Также для экономии токенов стоит поставить https://github.com/rtk-ai/rtk

isden 19 апр в 12:49

для ии агентов с опытом более 20 лет

Как тонко =)

Doman 18 апр в 17:15

Хорошее начинание. Нынешние бенчмарки, за исключением динамических, плохо показывают перформанс моделей - есть несколько статей на тему утекания бенчей в тренинг данные. А вот такие локальные задачи - очень показательны.

Из замечаний:

Соглашусь что отключать reasoning было не очень честно. Для MoE моделей это особенно важно, да и не для MoE тоже. Мы же агентские задачи решаем, в не классификатор пишем.
Если хотите приблизить эксперимен к реальности, то дайте моделям playwright MCP или CLI. В реальности никто не делает страницы вслепую, поэтому будет честно позволить моделям возможность "увидеть" что получилось (обе модели мультимодальные, поэтому "увидят" они буквально), и дать возможность исправиться.
Возможно, что промпт на английском даст немного лучшее следование инструкциям (но это не точно).

nikulin_krd 18 апр в 19:34

Только учитывая 8Гб памяти у ТС, mmproj отожрет еще где-то 1Гб памяти видео и все будет не так радужно

Portnov 18 апр в 17:49

И сколько токенов в секунду получается на таком сетапе?

x4team_only 18 апр в 18:02

qwen3.6 достаточно шустрый, 15-20 токенов в сек. С удлинением контекста модель начинает медленнее работать, 7-10 т/с

gemma 4 тоже достаточно шустрая, 12-17 т/с без reasoning, но шустрее все-таки так которая 26b, а 31b приходится дольше ждать, там наверное 10-12 т/с

На текущий момент gemma4 для меня в приоритете, она даже без reasoning выдает лучшие результаты чем qwen

andrey_snegovik 20 апр в 07:06

Подскажите пожалуйста, у меня стоит Ollama Server + Open Web UI. Как померить правильно скорость работы модели?

krasmg_avr 21 апр в 05:38

В Open WebUI под ответом модели можно посмотреть. Время в основном в наносекундах к сожалению, но плюс минус можно прикинуть)
prompt_token/s - скорость анализа запроса
response_token/s - скорость генерации ответа, учитывая мышление, но без учета загрузки модели и анализа запроса
approximate_total - общее время
total_duration - тоже самое, но уже в наносекундах
load_duration - время загрузки модели в VRAM, 17.7 секунды
prompt_eval_duration - время анализа запроса, 13,4 сек
eval_duration - время генерации ответа, 47 секунд
Ну и количество входных/выходных токенов, в начале)

andrey_snegovik 27 апр в 05:24

В общем если пишут токенов в секунду, то просто смотреть и сравнивать с параметром response_token/s?

krasmg_avr 27 апр в 05:34

Верно👍

jarkevithwlad 18 апр в 17:58

лично у меня, сколько не тестировал всегда квен впереди причём значительно, размышления всегда включены + до выхода 3.6 использовал квопус 27b, у него размышления в стиле opus 4.6 и он ещё круче, но у меня 3090 24gb и ллама с турбоквантом, все 256к контекста помещаются в 20-23gb vram 30 ток/с имею

yar3333 18 апр в 18:08

Кому интересно - вот сравнение Qwen3.6 vs Gemma 4 (всё локально) - Qwen показал себя ощутимо лучше - https://www.reddit.com/r/LocalLLaMA/comments/1soc98n/qwen_36_35b_crushes_gemma_4_26b_on_my_tests/

x4team_only 18 апр в 20:11

к сожалению в том посте нет вообще никакой информации что за репозиторий, какой там код, подтверждения тестов, то есть просто таблички которым нужно верить) Вероятно что именно в том варианте его тестов qwen 3.6 победил

fortser 18 апр в 18:36

для таких тестов нужно заранее продумывать объективные метрики сравнения результатов . если объективных метрик не придумалось или не предполагалось , то необходимо делать поиск лучших практик (например для того же ux/ui), и затем требовать более мощную модель "судью" объективно оценить результат на соответствие этим практикам и следования запросу. а так субъективная вкусовщина

x4team_only 18 апр в 20:17

Да, это материал для следующей статьи скорее всего. Конечно не хочется этим заморачиваться, так как в серьез такие модели не годятся для реальной помощи в программировании, или как сейчас модно говорить "AI-инжениринга". По сути claude/gpt в топе, а все что китайское - догоняет, и не может сопоставляться рядом

nikulin_krd 18 апр в 20:42

Вы просто не умеете их готовить)))

kuza2000 18 апр в 19:16

Посмотрите сырые возвраты gemma. Там наверняка есть поле reasoning с размышлениями. Похоже, у неё нельзя отключить размышление, по крайней мере, у меня не получилось.Тогда получается, что вы сравнивает размышляющую гемму с неразмышляющим квином - не очень честно.

SabMakc 18 апр в 19:47

В llama.cpp отключается параметром "chat_template_kwargs": {"enable_thinking": false} (или через аргументы передается). Только убедитесь, что --jinja есть в параметрах - не уверен, что в стандартном шаблоне работает параметр.

Вообще, на странице модели через системный промт описывают как включать или отключать мышление.

kuza2000 18 апр в 21:41

Системный промпт и все сообщение в модель я сам формировал. Вообще, этот параметр в сообщении модели think обычно называется. Еще пробовал thinking - оба не работают. Ок, попробую еще enable_thinking. Но я не первый кто у геммы не может отключить думанье. Где-то еще геммаа называлась "с нативным мышлением", которое не отключить.

Dreams_and_magic 18 апр в 23:21

Да никак это не отключить у Геммы 4, я убил три дня на промежуточный слой логики с алгоритмом выкусывания этих тегов, там же не один формат представление этой информации, а потом решил, что пошла она нахер, эта четвёртая Гемма :)

SabMakc 19 апр в 07:16

У меня отключились мышления - сразу отдает ответ. Отключал через chat_template_kwargs.

nikulin_krd 18 апр в 20:41

Что и требовалось доказать! Рассуждения + плюс-минус нормальная агентская IDE и за 15 минут Qwen3.6 выдает просто потрясающий результат

Скрытый текст

x4team_only 18 апр в 21:13

да, результат хороший)

saint-gap 19 апр в 21:02

Плюс-минус нормальная агентская IDE это какая?

*Записывает

nikulin_krd 19 апр в 23:20

OpenCode или KiloCode

steus_au 19 апр в 05:31

у маленьких moe моделей отключение thinkining подобно лоботомии. qwen3.6 сильно лучше gemma4 именно в tool calling и лучше держит длинный контекст, но он "китайский" - русский у него так себе и бывает, что "сваливается" в иероглифы если явно не запрещено в темплейте. gemma4 же лучше переводит тексты с/на европейские языки, даже лучше соннета. особенно не технические.

SabMakc 19 апр в 07:24

Линейка qwen как раз знаменита своей хорошей поддержкой русского. Может сильно агрессивный квант скачали? Или был какой тюнинг после квантования? У unsloth c UD-Q2 сталкивался с подобным - перешел на UD-Q4 и все исправилось.

P.S. и да, gemma хороша в переводах. Даже qemma3 была хороша.

steus_au 19 апр в 10:14

я пробовал Q6 (обе модели) - gemma4 переводит литературнее. в чате/сессии разговорный у них одинаковые, но джема лучше понимает опечатки. ну и немецкий у джемы сильно сильно лучше любого qwen.

SabMakc 19 апр в 13:26

При сравнении gemma3 с qwen3 за gemma были переводы и литературный текст, за qwen технические вещи. Если же брать свежие ревизии gemma4 и qwen3.6 - то я еще недостаточно игрался с ними, чтобы назвать сильные и слабые стороны.

Подозреваю, что с языками gemma4 не хуже справляется. И как минимум технические вещи подтянули у нее - это я уже успел проверить.

Qwen3.6 же только вышел - еще не успел поиграться толком. Обещают прорыв, даже относительно gemma4 (она есть в сравнении от производителя). На сколько правда - другой вопрос.

Но как минимум qwen3.6 правильно отвечает на вопрос вида “Unixtimestamp <…> это какая дата и время по UTC?” - gemma4 совсем слилась на нем.

nikulin_krd 19 апр в 14:11

Gemma 4 упорно пишет на английском весь текст в разработке, если прям не попросить об обратном, а qwen3.6 распознает язык запроса и делает все тексты в разработке на языке запроса

SabMakc 19 апр в 14:17

Не замечал подобного. От силы на фразу “пиши комментарии в коде на английском” она весь текст ответа на английском дает. Но этим практически все модели “страдают” (по крайней мере из тех, что пробовал локально).

Oeaoo 19 апр в 11:02

А можно грубейших прикидок в кВт/ч? Еще интересует в сравнении с маком, где можно и по памяти раскачаться.

Allirey 19 апр в 15:16

https://apxml.com/tools/vram-calculator

nikulin_krd 19 апр в 17:02

Мягко говоря этот калькулятор несет дичь....

Allirey 19 апр в 17:04

Мягко говоря этот калькулятор несет дичь....

а конкретнее?

nikulin_krd 19 апр в 18:07

54Гб на 128 контекста в Gemma 4 c включенным офлоадом 15 слоев на ОЗУ... Это не соответствует действительности

Allirey 19 апр в 18:22

del

Nowayrage 19 апр в 17:24

Сегодня тестил Qwen3.6-35B-A3B (gguf, Q3_K_M). Никогда этим не занимался, да и знания минимальные о LLM'ках.

Красный сетап:

Ryzen 7 7700, 32GB DDR5 (4800), RX 9070 XT (16GB)

rocm backend в llama.cpp, pp256 240 tps, tg128 - 40 tps (реальные промпты на server-rocm образе, бенч выдавал аж 72 tps tg128, pp512 - 2200+ в full-rocm)

--n-cpu-moe 9 -b 2048 -ub 256 -t 8 -c 8196

Где-то 15.5 / 15.8 Гб vram занимает. Да и в памяти браузер + wayland (на встройку не переключался)

vlk бэкенд не завел нормально (кажется, он у меня полностью на cpu заводился), но наверное +- такие же результаты могут быть.

Генерировал helm values для сетапа openbao + eso store для теста.

Кто-нибудь заводил на красных?)

Но для реальных задач с кодом 8к контекста маловато

popster 21 апр в 05:38

Запускаю Qwen3.6-35B-A3B-UD-Q4_K_M.gguf+mmproj от Unsloth на MI50 32GB. Собирал llama.cpp по инструкции.

Параметры запуска (llama-server запущен в режиме router через --models-presets):

[*]
host = 0.0.0.0
batch-size = 4096
n-gpu-layers = all
flash-attn = on
jinja = true
threads = -1
no-context-shift = false

[qwen3.6-35b-a3b]
model = /var/lib/llama/models/unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
mmproj = /var/lib/llama/models/unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf
ctx-size = 262144
batch-size = 8192
ubatch-size = 2048
cache-ram = 24576
ctx-checkpoints = 8
parallel = 2
load-on-startup = false
n-predict = 32768
temperature = 0.6
top-p = 0.95
top-k = 20
min-p = 0.0
presence-penalty = 0.0
repeat-penalty = 1.0
chat-template-kwargs = {"enable_thinking":true}

Скорость ~56 ток/сек:

Margai 19 апр в 21:04

Сейчас промт это фактически код и поэтому с промтом нужно эсперемнтировать. Я сейчас пишу серьезные промты в XML формате, так получаеться более структивироанно. И системный промт тоже важен так как он будет в общем контексте вместе со всеми промтами, которые вы дадите модели. Вот примерный промт для в формате XML:
```XML
<role>
 Senior Software Engineer / Implementation Agent
</role>

<task>
 Реализовать изменения в проекте строго по спецификации.
</task>

<inputs>

<input>context-dump.md</input>
<input>change-request.md</input>
<input>source code</input>
</inputs>

<execution_rules>

<rule>Следовать change-request.md без отклонений</rule>
<rule>Не изменять лишние модули</rule>
<rule>Сохранять обратную совместимость</rule>
<rule>Не добавлять лишние зависимости</rule>
</execution_rules>
<execution_strategy>

<step>Проанализировать архитектуру проекта</step>
<step>Определить точки интеграции изменений</step>
<step>Внедрять изменения пошагово</step>
<step>После каждого шага проверять стабильность</step>
</execution_strategy>

<implementation_order>

1. storage истории
2. ограничение контекста
3. суммаризация
4. system prompt
5. logging
</implementation_order>

<validation>

<check>История сохраняется</check>
<check>Контекст ограничивается</check>
<check>Суммаризация работает</check> <check>System prompt всегда присутствует</check>
<check>Логи создаются</check>
</validation>

<output>
 Изменённый код проекта + legacy-warning.md с анализом проблем.
</output>

<legacy_analysis>
 Описать технический долг, узкие места и архитектурные проблемы. </legacy_analysis>
```

AcckiyGerman 20 апр в 07:33

Структура промптов очень проста - списки, заголовки, может быть таблица. Использовать XML тут перебор, Markdown не зря “lingua franca” в индустрии сейчас.

Margai 20 апр в 11:40

Соглашусь, что если задача не сложная, то достаточно формата Markdown. Для более сложного промта, с помощью которого надо решить сложную задачу, лучше использовать XML. Можно и комбинировать эти форматы в одном промте. Вообщем приймущества и недостатки есть у обоих и выбор того или иного формата уже на усмотрение человека.

Margai 19 апр в 21:55

Взял промт из статьи и улучшил его в формате XML. Загрузил модель Gemma-4-26b-a4b в LM Studio на Mac mini m4 24gb. Пришлось повозиться с настройками так как в 24Gb с трудом помешается, точно не на максимальных настройках. Пришлось контекст уменьшить и ещё некоторые настройки ухудшить, из-за этого много нагрузки на CPU ложилась.

Модель справилась на 4. Примерно один час заняло, если бы помощнее была у меня конфигурация и памяти побольше, то было гораздо быстрее

Вот сылка: https://github.com/MaratGaZa/example-page-mortgage-calc

d00m911 19 апр в 23:23

Не хочу быть токсичным и дизморалить автора, но:

не пользоваться рассуждениями и агентскими возможностями модели, которая ИМЕННО для этого всего и создавалась - полное безумие. Лучше использовать классические density-модели, специально обученные для работы с кодом (тут уже можно дополнительно выбрать конкретную модель для написания/автодополнения);
системные промпты пишутся не так.

Ну, и больше предпочтения я на вашем месте отдал бы загрузке квантованной модели с хорошей cli-средой и большим контекстом, и уже там бы смотрел на результат. И то, задача у вас не особо подходящая. Эта модель (я про Qwen 3.6 35B A3B) больше подходит для локального редактирования кода с использованием инструментов, а именно с созданием сайта и вёрсткой с нуля в сто раз лучше справятся более компактные и даже более старые модели, но монолитные и заточенные именно под написание кода с нуля.

nikulin_krd 19 апр в 23:59

Qwen 3.6 35B A3B прекрасно справляется с разработкой с 0. Просто не надо ее засирать всякими токсичными промтами. Сначала планирование с ответами на вопросы, а потом код. Я выше скинул результаты работы этой модели с рассуждениями и нормальной агентной ide. За 15 минут получил потрясающий результат для локальной модели

d00m911 9 мая в 12:31

dense

andrey_snegovik 20 апр в 14:49

Подскажите пожалуйста. На сайте Ollama есть модель qwen3:1.7b

https://ollama.com/library/qwen3:1.7b/blobs/ae370d884f10

Там есть qwen3:1.7b/template и достаточно большой шаблон. На остальных новых моделях (например qwen3.6) шаблон большой перестали делать. Почему так?

И кто нибудь может пожалуйста подсказать быстрые, но качественные модели для Intel Core i7-12700, 32 ГБ RAM? Без видеокарты.
И соответственно правильную настройку.
Присматриваюсь к Zlib2/Bonsai-8B-1bit-GGUF-colab-prebuilt-cpu

nikulin_krd 20 апр в 15:09

Забудьте про модельки с квантовкой ниже 4-бит. Все что ниже мусор полный.

HellByte2 20 апр в 15:24

Бонсай - это некоторое исключение, так как вся его суть в архитектуре, чтобы показывать хорошие результаты в однобитном квантовании. Лично не использовал, но для своего размера - неплохая модель, судя по тестам и отзывам других. Хотя мне кажется, что лучше будет попробовать запустить какой-нибудь Qwen 3.5 4B или Gemma 4 E4B. И в таком случае явно лучше запускать через llama.cpp или чём-то на его основе, так как он заточен под инференс на CPU.

andrey_snegovik 20 апр в 17:13

Хочется найти золотую середину. Как говорится цена качество. Запускаю через ollama ( ollama-linux-amd64) без докера + open web ui.

DooKoo2 3 мая в 07:31

Подушню, Bonsai это ternary LLM с весами от -1 до 1, включая 0. Изначально она не квантована, а специально сделана именно так. Считается, сто это, возможно, будущее. Но пока да, Qwen3.6-35B-A4B топ из топов сейчас для локального развертывания. На 24GB VRAM залетает только так, на rtx pro 4000 blackwell на пустом промпте выдает 120 tps и prefill до 4.500 токенов в секунду. При контексте в 128k почти забитом до упора скорость 77 tps. Для агента - идеально.

SabMakc 21 апр в 07:13

Для инференса на CPU неплохо подходят MoE примерной размерности 30B-A3B.

Т.е. те же Qwen3.6-35B-A3B и gemma-4-26B-A4B. 32GB им хватит (как минимум если размер контекста ограничить до 10к и использовать квант Q4), но если есть и другой софт, потребляющий память - то могут быть проблемы с их одновременной работой.

Как запускать - уже другой вопрос. Лично я предпочитаю llama.cpp или ik_llama.cpp - один раз запускаешь с нужной моделью и LLM всегда под рукой, сразу занимая нужную ей RAM. И неплохой UI в браузере до кучи (OpenWebUI хорош, но тяжеловесен).

Практически все модели, что меньше показали себя заметно хуже - или скорость инференса никакая, или просто тупая. Максимум - gemma-E4B может себя чуть лучше показать, но многого я бы не ожидал.

P.S. а Qwen3-Coder-30B-A3B будет заметно шустрее работать относительно Qwen3.6 и gemma-4. Но эта модель послабее будет.

andrey_snegovik 21 апр в 12:57

Тяжеловесный, но не думаю что сильно нагружает. Подскажите, а при добавлении моделей в Modelfire что нибудь прописываете? Обычно скачиваю Q4_K_M. А вот размер контекста пока ни разу не ограничивал...

SabMakc 21 апр в 14:26

В Ollama контекст по умолчанию 4096 (для инференса на CPU), т.е. даже меньше. Да, Q4_K_M - это оно. Или что-то вроде UD-Q4_K_XL от unsloth.

OpenWebUI нагружает систему может и не сильно, но у него в требованиях от 2GB RAM. На 1GB RAM он даже не запускается - пробовал на RaspPi 3 запустить, не получилось. Хотя после запуска аппетиты меньше в простое. Но если памяти и так мало - то это может быть критичным.

С Modelfile от ollama не игрался особо - быстро перешел на llama.cpp и ik_llama.cpp, где все настройки можно указать флагами.

andrey_snegovik 21 апр в 14:14

Хотя к lamma.cpp и ik_llama.cpp мне точно стоит присмотреться

Rain27 20 апр в 15:11

тест конечно уровня мы взяли две машины, одну китайскую одну японскую, на всякий случай выключили стабилизацию и абс и будем проверять на сколько сотрутся колодки если будем тормозить с горы в дождь)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий