Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже / Комментарии / Хабр

kuza2000 11 часов назад

Ну прям как люди) Менять свое мнение - тоже сложно, тоже не каждый умеет... и тоже очень полезный навык!

Есть такое :)

Я правильно прочитал, что у single-agent и у blind checker разная логика, а не просто включен и выключен режим размышлений? Чтоб показать, как именно хуже/лучше, с размышлениями, или без, надо одного и того-же агента раз 10 запустить с включенными размышлениями и взять средний/худший/лучший результат, затем на той-же задаче, с той же обвязкой раз десять запустить с отключенным режимом размышлений. и сравнить средний/худший/лучший результат с предыдущим. А тут, честно говоря, все как-то мутно и непонятно расписано, как-будто разные совсем агенты с разной логикой сравниваются.

Посмотрел ваши исходники, вроде у вас есть попытка сравнить одни и те-же модели на одном в одном и том-же наборе в файле run_cross_model_compact.py, но в статье вы его не упоминаете вообще, как и результаты, да и сравниваются там только gpt5.4 и gemini-pro в режиме думать и не думать.

Несколько раз на одной задаче надо запускать т.к. большую роль может играть генератор случайных чисел. В бенчмарках обычно пишут среднее от 5 запусков.

aak204 7 часов назад

Спасибо за развернутый комментарий и отдельный респект за то, что заглянули в исходники! Вы поднимаете абсолютно правильные вопросы методологии. Давайте проясню моменты, которые в статье могли показаться мутными:

1. Про сравнение «теплого с мягким» (разная логика vs размышления)

Мы не сравнивали думающего агента с бездумным судьей напрямую. Мы сделали честную матрицу 2x2 и тестировали режимы внутри одной и той же логики.

В разделе «Инсайт 2» есть график Thinking vs Non-Thinking, на котором четко видно:

Мы взяли same_model_locked_agent и запустили его с размышлениями (регрет 0.15) и БЕЗ размышлений (регрет улетел в 2.26).
Затем мы взяли blind_checker и тоже запустили его с размышлениями (регрет 0.16) и БЕЗ размышлений (регрет 0.10).
То есть мы сравнивали агентов самих с собой. Вывод именно в том, что включение CoT помогает генератору, но вредит верификатору.

2. Про кросс-модельный тест и GPT-5.4

Результаты скрипта run_cross_model_compact.py как раз подробно описаны в предпоследнем разделе статьи - «Фронтир-модели не спасают». Там же есть график Compact Cross-Model Regret. Мы протестировали GPT-5.4 в режимах thinking и non-thinking (это gpt 5.3 instant так как 5.4 без ризонинга нет) и получили ровно тот же паттерн удваивания ошибки при включении размышлений. Про Gemini 3.1 Pro в статье не упоминали, так как на момент тестов ее strict-json endpoint в OpenRouter работал нестабильно (падает с ошибкой схемы при отключении reasoning), поэтому в финальный чарт пошли только модели OpenAI.

3. Про дисперсию, рандом и количество запусков

Вы абсолютно правы про влияние temperature, но здесь архитектура стенда страхует от сильного разброса:

Во-первых, сама среда (ответы тулзов и улики) полностью детерминирована.
Во-вторых, режим non-thinking запускается с temperature = 0.0, то есть он детерминирован на стороне генерации.
В-третьих, R_mean (Байесовский регрет) - это уже усредненная метрика. Стенд прогоняет агента не через одну задачу, а через набор эпизодов (в шоукейсе это 5 прогонов, в полном frozen_harness_v1 - прогон по всему корпусу событий). Мы усредняем ошибку распределения вероятностей на всем датасете, что сглаживает локальные флуктуации от temperature = 0.6 в режиме thinking.

GidraVydra 2 часа назад

Пусть первый камень в серверную стойку кинет тот, кто никогда не игнорировал факты...

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Комментарии 5

Публикации