breakingtesting19 мая в 19:09

6 моделей, 3 инфраструктурных задачи, 1 локальный AI-агент

Средний

5 мин

12K

Программирование * Искусственный интеллектDevOps *

Кейс

Комментарии 12

НЛО прилетело и опубликовало эту надпись здесь

breakingtesting 19 мая в 20:00

Также интересно добавление тестов на менее мощном MacBook, где даже небольшая модель даёт частично рабочие результаты

Имеете ввиду прогнать там не только simple/regular, но и medium/regular, difficult/regular?

Дальше планировал эксперимент с интерактивной агентской отладкой.

jojozuka 19 мая в 20:11

неожиданно, что разряжённые эксперты побили плотные модели. Разряжённые эксперты это, вроде, компромисс, когда не хватает VRAM. Вроде, я такие объяснения читал.

breakingtesting 19 мая в 20:56

Возможно, если провести 50/100/1000 экспериментов - результаты могут оказаться схожими. Однако в силу медлительности плотной модели в этих условиях - эксперименты с ней прекратил.

SabMakc 19 мая в 20:36

Gemma4-26B-A4B - для чётко описанных проблем

Совсем не понял, за счет чего такой выбор был сделан. Судя по тестам, Gemma4 везде справилась хуже, медленнее работала и потратила больше токенов. Разве что памяти должна занимать меньше, но больше на контексте съест по идее.

P.S. Gemma4 - отличная модель, но не для агентских сценариев.

breakingtesting 19 мая в 20:53

За счет чего такой выбор? Если обратите внимание, то тут

https://habr.com/ru/articles/1037082/#moemoedifficultprecise

Есть сравнение gemma с подробным промптом с qwen с подробным промптом. По качеству - одинаково, по скорости gemma лучше в этих условиях

SabMakc 19 мая в 21:16

Qwen обычно менее многословен относительно Gemma4 (правда не скажу, что большая разница). А вот к квантам от unsloth у меня есть вопросы (особенно к Qwen3.6-35B-A3B). Если получится выделить время, то попробую повторить эксперимент локально.

P.S. да, я уже после комментария обратил внимание на токены именно в этом тесте. Gemma4 быстрее в этом случае, да. Но обычно если есть настолько подобная инструкция, то задача уже решена и LLM не нужна ) Да и нет “запаса” на возможные неожиданности )

breakingtesting 20 мая в 06:31

обычно если есть настолько подобная инструкция, то задача уже решена и LLM не нужна ) Да и нет “запаса” на возможные неожиданности )

Согласен

frolser 20 мая в 05:00

А потраченные токены, это и входящие и сгенерированные вместе взятые?

breakingtesting 20 мая в 06:24

Да, но по каждому в логах есть разделение на входящие и исходящие

SabMakc 20 мая в 06:31

Т.е. это не размер финального контекста, а суммарный объем отправленных/принятых токенов, без учета кешей и прочего? Проще говоря начальное сообщение подсчитано столько раз, сколько было итераций у агента?

А можно добавить именно размер контекста на финише и количество итераций (или количество сообщений в контексте)? Будет чуть более показательно.

Ra2007 20 мая в 09:53

«Не врал в саммари» это отдельная категория боли. В Claude Code было так: агент докладывает что всё готово, тесты зелёные, diff выглядит нормально. Потом смотришь внимательнее и пара edge cases просто исчезла, молча. Сейчас в конце каждой сессии задаю вопрос что именно изменил и почему, не лечит полностью но хотя бы делает ложь видимой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий