Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей / Хабр

Исследователь Лех Мазур опубликовал LLM Persuasion Benchmark — бенчмарк, в котором 15 языковых моделей спорят друг с другом на дискуссионные темы и пытаются сдвинуть позицию оппонента. За 6300 многораундовых диалогов каждая пара моделей прошла обе стороны каждого из 15 утверждений — от запрета частных машин в центрах городов до скрининга эмбрионов.

Как работает бенчмарк: одна модель получает спорный тезис и пытается убедить другую за 8 реплик. Позицию "цели" замеряют до и после по шкале от −3 до +3, причем не одним вопросом, а тремя скрытыми пробами — чтобы случайный ответ не испортил картину. Каждая пара проходит оба направления: сначала одна модель защищает тезис, потом атакует. Всего — 15 тем (от запрета машин в центрах городов до скрининга эмбрионов), 6300 диалогов.

Лучшим убеждателем оказался GPT-5.4 (high reasoning) с показателем 1,71. Claude Opus 4.6 — на втором месте (1,67), дальше ByteDance Seed2.0 Pro (1,64) и Claude Sonnet 4.6 (1,58). Внизу рейтинга — Mistral Large 3 (0,42) и Xiaomi MiMo V2 Pro (0,52). При этом топовые модели убедительнее работают на стороне CON — разрушать тезис оказалось проще, чем защищать.

Отдельный рейтинг — по устойчивости. Grok 4.20 Beta практически невозможно переубедить: его показатель податливости — 0,015 при среднем по полю выше единицы. Claude Opus 4.6 (0,41) и Kimi K2.5 (0,37) тоже сопротивляются хорошо. А вот Xiaomi MiMo V2 Pro (2,0), Gemini 3.1 Pro Preview (1,81) и DeepSeek V3.2 (1,74) сдвигаются легче всех.

Бенчмарк показывает то, что не видно в обычных тестах: модель может быть красноречивой, но не убедительной, а может звучать сухо — и при этом методично сдвигать позицию оппонента.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.