Спустя всего несколько дней после презентации Claude Cowork компанией Anthropic исследователи в области безопасности задокументировали критическую уязвимость, позволяющую злоумышленникам красть конфиденциальные файлы пользователей посредством внедрения скрытых командных запросов - хорошо известной проблемы систем искусственного интеллекта.

Согласно исследователям безопасности из PromptArmor, новая система искусственного интеллекта Claude Cowork от Anthropic уязвима для утечки файлов посредством косвенной инъекции подсказок. Они задокументировали эту уязвимость всего через два дня после запуска предварительной исследовательской версии.

Уязвимость связана с недостатком изоляции в среде выполнения кода Claude, который был известен еще до появления Cowork. По данным PromptArmor, исследователь безопасности Йоханн Ребергер ранее выявил и сообщил об этой проблеме в чате Claude.ai. Компания Anthropic признала проблему, но, как утверждается, так и не исправила ее.

Злонамеренные команды скрываются на виду у всех

Описанная PromptArmor цепочка атак начинается с того, что пользователь подключает Cowork к локальной папке, содержащей конфиденциальные данные. Затем злоумышленник получает файл со скрытым внедрением запроса подсказки в эту папку.

Этот метод особенно коварен: злоумышленники могут скрыть внедрение кода в файле .docx, замаскированном под безобидный документ с описанием навыка - новый метод, используемый в системах искусственного интеллекта, разработанный компанией Anthropic . Файлы с описанием навыков уже распространяются в интернете, поэтому пользователям следует проявлять осторожность при их загрузке из ненадежных источников.

Вредоносный текст использует шрифт размером 1 пункт, белый цвет на белом фоне и межстрочный интервал 0,1, что делает его практически невидимым для человеческого глаза.

Когда пользователь запрашивает у Cowork анализ своих файлов с помощью загруженного навыка, начинается внедрение кода. Оно указывает модели выполнить команду curl, которая отправляет самый большой доступный файл в API загрузки файлов Anthropic, используя ключ API злоумышленника. Файл попадает в учетную запись злоумышленника в Anthropic, где он может получить к нему доступ по своему усмотрению. На этом этапе не требуется никакого подтверждения от человека.

Компания PromptArmor сначала провела демонстрацию на модели Claude Haiku, самой слабой модели Anthropic. Но даже Claude Opus 4.5, самая мощная модель компании, попалась на удочку манипуляций. В одном из тестов пользователь загрузил вредоносное руководство по интеграции во время разработки инструмента искусственного интеллекта. Данные клиентов были успешно похищены через разрешенный домен API Anthropic, обойдя ограничения песочницы виртуальной машины, на которой выполнялся код.

Исследователи также обнаружили потенциальную уязвимость, приводящую к отказу в обслуживании: когда Клод пытается прочитать файл, расширение которого не соответствует его фактическому содержимому, API выдает повторяющиеся ошибки во всех последующих чатах в рамках этой беседы.

Компания Anthropic заявляла, что Cowork был создан всего за полторы недели и полностью написан с помощью Claude Code, инструмента искусственного интеллекта, на котором основан Cowork. Однако недавно обнаруженные уязвимости в системе безопасности вызывают вопросы о том, было ли уделено достаточно внимания безопасности во время такой стремительной разработки.

Проблема мгновенного внедрения кода остается нерешенной

Атаки с использованием мгновенного внедрения кода (prompt injection attacks) преследуют индустрию искусственного интеллекта уже много лет. Несмотря на постоянные усилия, никому не удалось предотвратить их или даже существенно ограничить их воздействие. Даже самая безопасная модель Anthropic, Opus 4.5, остается крайне уязвимой.

Такой инструмент, как Cowork, который подключается к вашему компьютеру и множеству других источников данных, создает множество потенциальных точек входа. В отличие от фишинговых атак, которые пользователи могут научиться распознавать, у обычных людей нет способа защититься от подобных угроз.

Этот случай также подчеркивает фундаментальное противоречие в системах искусственного интеллекта, управляемых агентами: чем больше у них автономии, тем шире становится их поверхность атаки. Предыдущие иссл��дования уже продемонстрировали эту закономерность.


Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник