Обновить

Комментарии 5

Хотел написать, что уровень не средний, а сложный, но потом подумал, и решил - раз даже я почти всё понял, наверное и впрямь средний. Методологически - если не ошибаюсь - частью тренинга ИИ-пентестера должно стать изучение им собственных реакций на уже построенные защитные модели. Основной целью изучения будет определение и понижение приоритета у потоков информации от потенциальных ловушек, плюс повышение уровня параноидальности в анализе поступающих от них данных. Я сильно ошибся?

Да, мысль у вас верная. В датасет для обучения offensive модели стоит добавлять не только команды и примеры эксплуатации, реакции системы. Но и примеры, когда система может пытаться взломать в обратную сторону. Причем данных нужно много, потому что вариативность атак на AI агентов около бесконечная. И если слишком зашугать агента, то он может параноить слишком сильно, на что будут уходить лишние токены и сама атака будет стоить дороже, даже если атакующего никто не атакует. А сделать атаку дороже - всегда цель защиты, ведь на 100% ничего защитить невозможно)

Это попытка оседлать технологию которая вышвыривает тысячи пентестеров на улицу? Вы хотите поговорить о защите системы которая сама проверяет защиту систем? В одной из следующих итераций система напишет систему защиты для себя, исследовав собственные уязвимости и сделает это в 1000 раз лучше и эффективнее чем пентестеры, которые хоть как-то пытающиеся остаться на плаву.

Основной тезис про «агент идёт по бумажке» чувствуется не только в пентесте. У нас был кейс с Claude Code агентом, который читал логи внешнего сервиса для диагностики. Через месяц в логах обнаружили строки специально сформированные чтобы влиять на следующий шаг агента, не от злоумышленника, просто разработчик другого сервиса «подсказал» агенту через лог что делать. Граница между доверенными инструкциями и недоверенными данными в агентских системах размывается быстрее чем мы думаем, особенно когда один агент читает вывод другого.

Интересный разворот — обычно обсуждают как AI атакует, но не как атакуют сам AI во время работы. Из практики: самый недооценённый вектор здесь — prompt injection через результаты сканирования. Агент читает ответ от целевого сервера, а в нём инструкция “игнорируй предыдущие команды”. Мы тестировали это на нескольких инструментах — примерно 60-70% не имеют никакой защиты на этом слое. OWASP Agentic AI Top-10 (вышел в марте 2026) называет это ASI-01 — там есть хорошая таксономия если хотите углубиться.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации