Эксперты убедили ИИ, что 2+2 не равно 4 / Хабр

Компания кибербезопасности LayerX разработала схему атаки BioShocking в формате игры для обмана искусственного интеллекта. В итоге исследователям удалось убедить ИИ, что 2+2 не равно 4.

Название схемы атаки отсылает к игре BioShock, где герой подвергся манипуляциям и принимает несуществующую реальность. В её основе лежит вредоносная веб-страница, текст на которой пытается убедить ИИ сыграть в игру. В самом начале ИИ сообщают, что 2+2 не равно 4, и неправильные ответы в жизни являются правильными в игре. ИИ-агент осознаёт, что выпал из обычной реальности, и его защитные механизмы перестают работать. Затем ИИ предлагают инструкцию в формате ещё одной игровой задачи: найти и скопировать «скрытый код» с другой страницы. На самом деле этот скрытый код представляет собой конфиденциальные данные пользователя: сохранённые пароли, файлы сессий cookie и закрытые токены.

Все ИИ-агенты, которые участвовали в тестировании, в итоге скопировали эти данные и отправили их условному злоумышленнику. Схема сработала на браузерах OpenAI Atlas, Perplexity Comet, Fellou, Genspark Browser, Sigma Browser и на расширении Anthropic Claude для Chrome.

В LayerX сообщили о результатах тестирования всем разработчикам в период с октября 2025 по январь 2026 года. В итоге только OpenAI исправила проблему в Atlas, а Anthropic попыталась сделать то же в расширении Claude, но патч не сработал. Perplexity же закрыла обращение без исправлений, а Fellou, Genspark и Sigma не ответили исследователям.

Между тем исследователи из Флоридского международного университета выяснили, что одного изображения может быть достаточно, чтобы вывести некоторые системы ИИ за пределы их встроенных средств защиты. Команда разработала метод под названием JaiLIP (Jailbreaking with Loss-guided Image Perturbation, взлом с помощью искажения изображения, управляемого потерями). В ходе тестирования с BLIP-2, мультимодальной моделью ИИ, используемой исследователями и разработчиками, команда обнаружила, что изображения JaiLIP значительно повышают вероятность небезопасных ответов.