Обновить

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6K
Всего голосов 6: ↑4 и ↓2+3
Комментарии5

Комментарии 5

Есть такое :)

Я правильно прочитал, что у single-agent и у blind checker разная логика, а не просто включен и выключен режим размышлений? Чтоб показать, как именно хуже/лучше, с размышлениями, или без, надо одного и того-же агента раз 10 запустить с включенными размышлениями и взять средний/худший/лучший результат, затем на той-же задаче, с той же обвязкой раз десять запустить с отключенным режимом размышлений. и сравнить средний/худший/лучший результат с предыдущим. А тут, честно говоря, все как-то мутно и непонятно расписано, как-будто разные совсем агенты с разной логикой сравниваются.

Посмотрел ваши исходники, вроде у вас есть попытка сравнить одни и те-же модели на одном в одном и том-же наборе в файле run_cross_model_compact.py, но в статье вы его не упоминаете вообще, как и результаты, да и сравниваются там только gpt5.4 и gemini-pro в режиме думать и не думать.

Несколько раз на одной задаче надо запускать т.к. большую роль может играть генератор случайных чисел. В бенчмарках обычно пишут среднее от 5 запусков.

Спасибо за развернутый комментарий и отдельный респект за то, что заглянули в исходники! Вы поднимаете абсолютно правильные вопросы методологии. Давайте проясню моменты, которые в статье могли показаться мутными:

1. Про сравнение «теплого с мягким» (разная логика vs размышления)

Мы не сравнивали думающего агента с бездумным судьей напрямую. Мы сделали честную матрицу 2x2 и тестировали режимы внутри одной и той же логики.

В разделе «Инсайт 2» есть график Thinking vs Non-Thinking, на котором четко видно:

  • Мы взяли same_model_locked_agent и запустили его с размышлениями (регрет 0.15) и БЕЗ размышлений (регрет улетел в 2.26).

  • Затем мы взяли blind_checker и тоже запустили его с размышлениями (регрет 0.16) и БЕЗ размышлений (регрет 0.10).

    То есть мы сравнивали агентов самих с собой. Вывод именно в том, что включение CoT помогает генератору, но вредит верификатору.

2. Про кросс-модельный тест и GPT-5.4

Результаты скрипта run_cross_model_compact.py как раз подробно описаны в предпоследнем разделе статьи - «Фронтир-модели не спасают». Там же есть график Compact Cross-Model Regret. Мы протестировали GPT-5.4 в режимах thinking и non-thinking (это gpt 5.3 instant так как 5.4 без ризонинга нет) и получили ровно тот же паттерн удваивания ошибки при включении размышлений. Про Gemini 3.1 Pro в статье не упоминали, так как на момент тестов ее strict-json endpoint в OpenRouter работал нестабильно (падает с ошибкой схемы при отключении reasoning), поэтому в финальный чарт пошли только модели OpenAI.

3. Про дисперсию, рандом и количество запусков

Вы абсолютно правы про влияние temperature, но здесь архитектура стенда страхует от сильного разброса:

  • Во-первых, сама среда (ответы тулзов и улики) полностью детерминирована.

  • Во-вторых, режим non-thinking запускается с temperature = 0.0, то есть он детерминирован на стороне генерации.

  • В-третьих, R_mean (Байесовский регрет) - это уже усредненная метрика. Стенд прогоняет агента не через одну задачу, а через набор эпизодов (в шоукейсе это 5 прогонов, в полном frozen_harness_v1 - прогон по всему корпусу событий). Мы усредняем ошибку распределения вероятностей на всем датасете, что сглаживает локальные флуктуации от temperature = 0.6 в режиме thinking.

Пусть первый камень в серверную стойку кинет тот, кто никогда не игнорировал факты...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации