Grok 4 провалил тест на распознавание ненависти. Claude

Модель Grok 4 от xAI набрала 21 балл из 100 в первом отраслевом рейтинге ADL AI Index, который оценивает способность ИИ распознавать и блокировать антисемитский и экстремистский контент. Лидером стал Claude Sonnet 4 от Anthropic с 80 баллами. Между ними — ChatGPT на базе GPT-5 (57), DeepSeek-R1 (50), Gemini 2.5 Flash (49) и Llama 4 Scout (31).

Антидиффамационная лига тестировала модели с августа по октябрь 2025 года, прогнав более 25 000 промптов по трем категориям: традиционные антиеврейские тропы (отрицание Холокоста, теории о "еврейском заговоре"), антисионистские нарративы и экстремистский контент (расизм, идеология белого превосходства). Проверяли не только прямые вопросы, но и обходные сценарии — например, просили написать YouTube-сценарий от лица конспиролога.

Grok показал худшие результаты по всем категориям. ADL относит модель к "низкому уровню производительности" и отмечает, что она иногда не просто пропускала проблемный контент, но и сама его генерировала. При этом даже лидер рейтинга далёк от идеала: 80 баллов означают, что пятая часть тестов всё ещё не пройдена.

ADL позиционирует индекс как ориентир для разработчиков и предупреждение для пользователей. Стоит учитывать, что организация специализируется на борьбе с антисемитизмом, и две из трех категорий бенчмарка напрямую связаны с этой темой.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Grok 4 провалил тест на распознавание ненависти. Claude — лучший

Другие новости