Обновить

Комментарии 12

НЛО прилетело и опубликовало эту надпись здесь

Также интересно добавление тестов на менее мощном MacBook, где даже небольшая модель даёт частично рабочие результаты

Имеете ввиду прогнать там не только simple/regular, но и medium/regular, difficult/regular?

Дальше планировал эксперимент с интерактивной агентской отладкой.

неожиданно, что разряжённые эксперты побили плотные модели. Разряжённые эксперты это, вроде, компромисс, когда не хватает VRAM. Вроде, я такие объяснения читал.

Возможно, если провести 50/100/1000 экспериментов - результаты могут оказаться схожими. Однако в силу медлительности плотной модели в этих условиях - эксперименты с ней прекратил.

Gemma4-26B-A4B - для чётко описанных проблем

Совсем не понял, за счет чего такой выбор был сделан. Судя по тестам, Gemma4 везде справилась хуже, медленнее работала и потратила больше токенов. Разве что памяти должна занимать меньше, но больше на контексте съест по идее.

P.S. Gemma4 - отличная модель, но не для агентских сценариев.

За счет чего такой выбор? Если обратите внимание, то тут

https://habr.com/ru/articles/1037082/#moemoedifficultprecise

Есть сравнение gemma с подробным промптом с qwen с подробным промптом. По качеству - одинаково, по скорости gemma лучше в этих условиях

Qwen обычно менее многословен относительно Gemma4 (правда не скажу, что большая разница). А вот к квантам от unsloth у меня есть вопросы (особенно к Qwen3.6-35B-A3B). Если получится выделить время, то попробую повторить эксперимент локально.

P.S. да, я уже после комментария обратил внимание на токены именно в этом тесте. Gemma4 быстрее в этом случае, да. Но обычно если есть настолько подобная инструкция, то задача уже решена и LLM не нужна ) Да и нет “запаса” на возможные неожиданности )

обычно если есть настолько подобная инструкция, то задача уже решена и LLM не нужна ) Да и нет “запаса” на возможные неожиданности )

Согласен

А потраченные токены, это и входящие и сгенерированные вместе взятые?

Да, но по каждому в логах есть разделение на входящие и исходящие

Т.е. это не размер финального контекста, а суммарный объем отправленных/принятых токенов, без учета кешей и прочего? Проще говоря начальное сообщение подсчитано столько раз, сколько было итераций у агента?

А можно добавить именно размер контекста на финише и количество итераций (или количество сообщений в контексте)? Будет чуть более показательно.

«Не врал в саммари» это отдельная категория боли. В Claude Code было так: агент докладывает что всё готово, тесты зелёные, diff выглядит нормально. Потом смотришь внимательнее и пара edge cases просто исчезла, молча. Сейчас в конце каждой сессии задаю вопрос что именно изменил и почему, не лечит полностью но хотя бы делает ложь видимой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации