breakingtesting May 19 at 19:09

6 моделей, 3 инфраструктурных задачи, 1 локальный AI-агент

Medium

5 min

12K

Programming * Artificial IntelligenceDevOps *

Case

Comments 12

UFO landed and left these words here

breakingtesting May 19 at 20:00

Также интересно добавление тестов на менее мощном MacBook, где даже небольшая модель даёт частично рабочие результаты

Имеете ввиду прогнать там не только simple/regular, но и medium/regular, difficult/regular?

Дальше планировал эксперимент с интерактивной агентской отладкой.

jojozuka May 19 at 20:11

неожиданно, что разряжённые эксперты побили плотные модели. Разряжённые эксперты это, вроде, компромисс, когда не хватает VRAM. Вроде, я такие объяснения читал.

breakingtesting May 19 at 20:56

Возможно, если провести 50/100/1000 экспериментов - результаты могут оказаться схожими. Однако в силу медлительности плотной модели в этих условиях - эксперименты с ней прекратил.

SabMakc May 19 at 20:36

Gemma4-26B-A4B - для чётко описанных проблем

Совсем не понял, за счет чего такой выбор был сделан. Судя по тестам, Gemma4 везде справилась хуже, медленнее работала и потратила больше токенов. Разве что памяти должна занимать меньше, но больше на контексте съест по идее.

P.S. Gemma4 - отличная модель, но не для агентских сценариев.

breakingtesting May 19 at 20:53

За счет чего такой выбор? Если обратите внимание, то тут

https://habr.com/ru/articles/1037082/#moemoedifficultprecise

Есть сравнение gemma с подробным промптом с qwen с подробным промптом. По качеству - одинаково, по скорости gemma лучше в этих условиях

SabMakc May 19 at 21:16

Qwen обычно менее многословен относительно Gemma4 (правда не скажу, что большая разница). А вот к квантам от unsloth у меня есть вопросы (особенно к Qwen3.6-35B-A3B). Если получится выделить время, то попробую повторить эксперимент локально.

P.S. да, я уже после комментария обратил внимание на токены именно в этом тесте. Gemma4 быстрее в этом случае, да. Но обычно если есть настолько подобная инструкция, то задача уже решена и LLM не нужна ) Да и нет “запаса” на возможные неожиданности )

breakingtesting May 20 at 06:31

обычно если есть настолько подобная инструкция, то задача уже решена и LLM не нужна ) Да и нет “запаса” на возможные неожиданности )

Согласен

frolser May 20 at 05:00

А потраченные токены, это и входящие и сгенерированные вместе взятые?

breakingtesting May 20 at 06:24

Да, но по каждому в логах есть разделение на входящие и исходящие

SabMakc May 20 at 06:31

Т.е. это не размер финального контекста, а суммарный объем отправленных/принятых токенов, без учета кешей и прочего? Проще говоря начальное сообщение подсчитано столько раз, сколько было итераций у агента?

А можно добавить именно размер контекста на финише и количество итераций (или количество сообщений в контексте)? Будет чуть более показательно.

Ra2007 May 20 at 09:53

«Не врал в саммари» это отдельная категория боли. В Claude Code было так: агент докладывает что всё готово, тесты зелёные, diff выглядит нормально. Потом смотришь внимательнее и пара edge cases просто исчезла, молча. Сейчас в конце каждой сессии задаю вопрос что именно изменил и почему, не лечит полностью но хотя бы делает ложь видимой.