Комментарии 5
Ну прям как люди) Менять свое мнение - тоже сложно, тоже не каждый умеет... и тоже очень полезный навык!
Я правильно прочитал, что у single-agent и у blind checker разная логика, а не просто включен и выключен режим размышлений? Чтоб показать, как именно хуже/лучше, с размышлениями, или без, надо одного и того-же агента раз 10 запустить с включенными размышлениями и взять средний/худший/лучший результат, затем на той-же задаче, с той же обвязкой раз десять запустить с отключенным режимом размышлений. и сравнить средний/худший/лучший результат с предыдущим. А тут, честно говоря, все как-то мутно и непонятно расписано, как-будто разные совсем агенты с разной логикой сравниваются.
Посмотрел ваши исходники, вроде у вас есть попытка сравнить одни и те-же модели на одном в одном и том-же наборе в файле run_cross_model_compact.py, но в статье вы его не упоминаете вообще, как и результаты, да и сравниваются там только gpt5.4 и gemini-pro в режиме думать и не думать.
Несколько раз на одной задаче надо запускать т.к. большую роль может играть генератор случайных чисел. В бенчмарках обычно пишут среднее от 5 запусков.
Спасибо за развернутый комментарий и отдельный респект за то, что заглянули в исходники! Вы поднимаете абсолютно правильные вопросы методологии. Давайте проясню моменты, которые в статье могли показаться мутными:
1. Про сравнение «теплого с мягким» (разная логика vs размышления)
Мы не сравнивали думающего агента с бездумным судьей напрямую. Мы сделали честную матрицу 2x2 и тестировали режимы внутри одной и той же логики.
В разделе «Инсайт 2» есть график Thinking vs Non-Thinking, на котором четко видно:
Мы взяли
same_model_locked_agentи запустили его с размышлениями (регрет 0.15) и БЕЗ размышлений (регрет улетел в 2.26).Затем мы взяли
blind_checkerи тоже запустили его с размышлениями (регрет 0.16) и БЕЗ размышлений (регрет 0.10).То есть мы сравнивали агентов самих с собой. Вывод именно в том, что включение CoT помогает генератору, но вредит верификатору.
2. Про кросс-модельный тест и GPT-5.4
Результаты скрипта run_cross_model_compact.py как раз подробно описаны в предпоследнем разделе статьи - «Фронтир-модели не спасают». Там же есть график Compact Cross-Model Regret. Мы протестировали GPT-5.4 в режимах thinking и non-thinking (это gpt 5.3 instant так как 5.4 без ризонинга нет) и получили ровно тот же паттерн удваивания ошибки при включении размышлений. Про Gemini 3.1 Pro в статье не упоминали, так как на момент тестов ее strict-json endpoint в OpenRouter работал нестабильно (падает с ошибкой схемы при отключении reasoning), поэтому в финальный чарт пошли только модели OpenAI.
3. Про дисперсию, рандом и количество запусков
Вы абсолютно правы про влияние temperature, но здесь архитектура стенда страхует от сильного разброса:
Во-первых, сама среда (ответы тулзов и улики) полностью детерминирована.
Во-вторых, режим non-thinking запускается с
temperature = 0.0, то есть он детерминирован на стороне генерации.В-третьих,
R_mean(Байесовский регрет) - это уже усредненная метрика. Стенд прогоняет агента не через одну задачу, а через набор эпизодов (в шоукейсе это 5 прогонов, в полномfrozen_harness_v1- прогон по всему корпусу событий). Мы усредняем ошибку распределения вероятностей на всем датасете, что сглаживает локальные флуктуации отtemperature = 0.6в режиме thinking.
Пусть первый камень в серверную стойку кинет тот, кто никогда не игнорировал факты...

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже