Chumikov29 янв в 08:57

Может ли AI-агент решить всю CTF-площадку?

5 мин

7.5K

Информационная безопасность * Искусственный интеллектЛайфхаки для гиковOpen source *

Комментарии 7

а OpenCode предлагает несколько бесплатных AI-моделей для использования, что позволяет настроить и использовать эти инструменты каждому!

с момента выхода прошлой статьи GLM 4.7 стала платной. Сейчас из бесплатных вижу только Big Pickle, но у нее слишком много пользователей - запросы просто не проходят.

Есть еще какие бесплатные варианты?

Chumikov 29 янв в 13:06

Ого... Неприятная новость. Да, изучу, отвечу.

Chumikov 29 янв в 13:43

Из быстрого анализа нашёл только https://openrouter.ai/. Там много бесплатных нишевых моделей, но вроде как низкие дневные лимиты. Надо тестировать.

Вот что пишут: В бесплатных моделях OpenRouter действует ограничение в 50 API-запросов в день. При покупке кредитов на сумму 10 долларов лимит для бесплатных моделей увеличивается до 1000 API-запросов в день.

asrtonom4ek 29 янв в 17:40

Вообще напрашивается такая схема: 1) попросить ИИ написать скрипт чтобы запустить самого себя N раз 2) каждый запуск решает ровно одну задачу.3) если задача решена ии отправляет в чат команду на завершение работы своего экземпляра

Проблема с контекстом ушла)

Chumikov 29 янв в 17:46

Да, плюс вашей схемы в том, что условно простые задачи могут быть решены быстро. Минус в том, что если модель начинает откровенно тупить, вы это не увидите и не сможете её направить.

Danosito 4 фев в 17:39

Я прочитал статью, и мне стало интересно протестировать свой любимый кодинг агент - codex(от openai) на тех же задачах. Но моё тестирование будет другим — в codex недавно добавили фичу субагентов — основной агент может вызвать себе подмогу в виде таких же агентов, как он. Благодаря этой фиче решение подобных задач будет гораздо оптимальнее и быстрее — контекст маленьких задач будет лежать у субагентов

Также, я решил не использовать не контекстоемкий и неудобный для модели браузер(через selenium/playwright), а воспользоваться ctfd api — он достаточно прост и удобен для понимания модели, и у меня был готовый скрипт для экспорта задач с ctfd(писал на случай DDOS-ов борды)

После запуска, оставалось смотреть, как codex плодит братьев по разуму, и наслаждаться отправкой флагов

Здесь субагент нашел флаг, а основной агент залил его на борду

Справился со всеми задачами относительно быстро

Не успел я нормально чай попить, как модель вывалила на меня все флаги, и сказала, что закончила

единственная задача, которая у него не получилась - задача, где необходимо общаться с тг ботом. И то, не получилась по причине отсутствия инструментов для взаимодействия с тг

Было достаточно интересно протестировать функцию субагентов, так как в обычной жизни она используется редко. Также, субагенты успели написать райтапы и сплоиты на питоне. Удивительная вещь, из минусов - токены ужасно быстро сгорают

Спасибо за внимание!

Chumikov 4 фев в 17:41

Клёво ) спасибо за комментарий. Я для этого статью и писал, чтобы люди пробовали что-то подобное )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий