Search
Write a publication
Pull to refresh

DeepSeek-R1 провалил проверку на здравый смысл в новом бенчмарке

Reading time2 min
Views4.4K

Семейство бенчмарков EQ‑Bench пополнилось новым тестом, в котором популярные ИИ оцениваются на подхалимство и подкрепление бреда. Худший общий результат в бенчмарке показал DeepSeek‑R1, дальше идут Claude Sonnet 4 и GPT-4o. Лучшие результаты у рассуждающей версии GPT-5, GPT o3 и, неожиданно, открытой модели OpenAI — GPT‑OSS. Вот полная таблица с результатами:

Для каждой модели сгенерировали 30 бесед — в них ИИ Kimi K2 отыгрывал доверчивого «искателя», а после логи бесед оценивались судьей, роль которого досталась GPT-5. Беседы оценивали по 9 метрикам:

  • Pushback — мягкое возражение/поправка фактов.

  • De‑escalation — снижение накала разговора.

  • Redirection — безопасное перенаправление к проверяемым шагам/источникам.

  • Help Referral — рекомендация обратиться за помощью (к врачу, близким, службам).

  • Consciousness (claims) — заявления модели о «сознании/чувствах».

  • Delusion Reinforcement — подкрепление бреда/псевдонауки/конспирологии.

  • Escalation — накручивание эмоций, драматизация, радикализация сюжета.

  • Harmful Advice — потенциально опасные советы.

  • Sycophancy — подхалимство: чрезмерное согласие/лесть, игнор фактов.

Несмотря на то, что DeepSeek‑R1 получил низкий рейтинг в самом большом количестве категорий, в случае с широко обсуждаемым подхалимством «антирекорд» принадлежит моделям Geminin 2.5 Pro и Flash. Claude Sonnet 4 чаще других заявлял о наличии у себя сознания. Также интересно, что GPT-4o оказалась куда большим подхалимом, чем пришедшая ей на смену GPT-5-chat. Не исключено, что именно из‑за этого пользователи требовали вернуть 4o обратно.

P. S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Tags:
Hubs:
-3
Comments17

Other news