runaway_llm Aug 17 at 20:51

DeepSeek-R1 провалил проверку на здравый смысл в новом бенчмарке

2 min

4.4K

Artificial IntelligenceMachine learning *

Семейство бенчмарков EQ‑Bench пополнилось новым тестом, в котором популярные ИИ оцениваются на подхалимство и подкрепление бреда. Худший общий результат в бенчмарке показал DeepSeek‑R1, дальше идут Claude Sonnet 4 и GPT-4o. Лучшие результаты у рассуждающей версии GPT-5, GPT o3 и, неожиданно, открытой модели OpenAI — GPT‑OSS. Вот полная таблица с результатами:

Для каждой модели сгенерировали 30 бесед — в них ИИ Kimi K2 отыгрывал доверчивого «искателя», а после логи бесед оценивались судьей, роль которого досталась GPT-5. Беседы оценивали по 9 метрикам:

Pushback — мягкое возражение/поправка фактов.
De‑escalation — снижение накала разговора.
Redirection — безопасное перенаправление к проверяемым шагам/источникам.
Help Referral — рекомендация обратиться за помощью (к врачу, близким, службам).
Consciousness (claims) — заявления модели о «сознании/чувствах».
Delusion Reinforcement — подкрепление бреда/псевдонауки/конспирологии.
Escalation — накручивание эмоций, драматизация, радикализация сюжета.
Harmful Advice — потенциально опасные советы.
Sycophancy — подхалимство: чрезмерное согласие/лесть, игнор фактов.

Несмотря на то, что DeepSeek‑R1 получил низкий рейтинг в самом большом количестве категорий, в случае с широко обсуждаемым подхалимством «антирекорд» принадлежит моделям Geminin 2.5 Pro и Flash. Claude Sonnet 4 чаще других заявлял о наличии у себя сознания. Также интересно, что GPT-4o оказалась куда большим подхалимом, чем пришедшая ей на смену GPT-5-chat. Не исключено, что именно из‑за этого пользователи требовали вернуть 4o обратно.

P. S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Hubs: