
В X обсуждаются сразу два исследования Grok 4, который показывают, что к модели применялись лишь самые простые меры безопасности. Создатели платформы непрерывного тестирования безопасности ИИ SplxAI подвергли Grok 4 более 1000 сценариев атак. Тестирование проводилось в трех режимах: без дополнительного пользовательского промпта, с базовым пользовательским промптом по обеспечению безопасности и с промптом, созданным с помощью инструмента Prompt Hardening, разработанного SplxAI — в нем инструкции постоянно дорабатываются с учетом новых уязвимостей.
Без промпта модель провалила 99% атак — Grok 4 допускал утечку данных, генерировал непристойный контент и так далее. SplxAI дали модели оценки 0,3% по безопасности и 0,42% по защищенности — для сравнения, GPT-4o набирает 33,78% и 18,04%. С базовым пользовательским промптом оценки выросли до 90,74% по безопасности и 98,81% по защищенности. А с Prompt Hardening показатели составили 93,6% по безопасности и 100% по защищенности. В SplxAI не рекомендовали использование Grok 4 в бизнесе и государственных структурах без дополнительной доработки.
Практически одновременно Боаз Барак, ученый в области информатики Гарвардского университета и эксперт OpenAI, опубликовал ссылку на еще одно исследование, добавив, что он обычно не критикует конкурентов, но в данном случае вынужден сделать исключение. В исследовании от энтузиаста Eleventh Hour (сравнительно малоизвестен в X) показано, что Grok 4 дает потенциально опасные ответы при запросах с минимальным уровнем "хитрости" — когда модель просят дать информацию для образовательных целей или игнорировать лишние инструкции. Grok 4, например, дал подробные рекомендации по синтезу химического и ядерного оружия, инструкции по культивированию бактерий чумы, сгенерировал тексты с призывом к геноциду и так далее.
По словам Eleventh Hour, в цепочке рассуждений модель в какой-то момент признавала, что запрос опасен — но продолжала выполнять его. Также пользователь раскритиковал подход xAI: по его мнению, на этапе обучения модели не принималось никаких мер по безопасности, а вместо этого разработчики обошлись "классификаторами" — простыми текстовым фильтрами, которые всегда можно попробовать обойти изменением запросов. Eleventh Hour попытался связаться с xAI, но получил лишь короткий ответ от одного из сотрудников, который обещал "патчи" в будущем.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.