Trism Гартнера хорошо был описан, за пару лет с учетом динамики моделей их подход, кажется, что устоял. Сейчас они новую "тему" начиют пиарить с guardian agents, которые в статье мельком были упомянуты
Ссылки на аудиосамлы попрошу в личке. Ждем освещение темы txt->img ;)
Из расцензурированных есть еще Dolphin. Джейлбрейки, если их правильно подобрать, могут работать нормально на младших GPT, а возможности генерации нужного контента там хорошо реализованы.
В 100% случаев это невозможно, хотя бы потому, что открытые модели могут злоумышленники использовать без контроля. Но будут разработаны методы и guardrails, чтобы снизить этот риск
Делали разбор тула для безопаности MCP в другой статье https://habr.com/ru/companies/raft/articles/910556/
Trism Гартнера хорошо был описан, за пару лет с учетом динамики моделей их подход, кажется, что устоял. Сейчас они новую "тему" начиют пиарить с guardian agents, которые в статье мельком были упомянуты
А как проверить, что та или иная картинка использовалась при обучении? Есть ли относительно простой способ?
Еще в Power Platform готовится выпуск кучи ИИ-тулов
Надеюсь выйдет продолжение, где искать и как правильно искать ментора. Спасибо за статью!
Спасибо за обратную связь, значит не зря написал :)
Спасибо, что поделился! Хорошо описаны рабочие атаки простым языком 👍
Старая инвестиционная мудрость Past performance is no guarantee of future results всё еще действует похоже ;) За статью спасибо, интересный ресерч
Сейчас, конечно, на новых reasoning результаты еще лучше могли бы быть. Спасибо, что поделился
Ссылки на аудиосамлы попрошу в личке. Ждем освещение темы txt->img ;)
Из расцензурированных есть еще Dolphin. Джейлбрейки, если их правильно подобрать, могут работать нормально на младших GPT, а возможности генерации нужного контента там хорошо реализованы.
Интересно, что у них стрельнет в итоге: их open source, который стал уже популярным, или nocode CrewUI платный
Их методы дообучения другие игроки портируют и еще лучше будет результат у всех моделей на рынке
Да, надо покупать премиальную подписку гугла, но это того стоит!
Отлично работает еще gemini. Последние релизы и deep search и realtime streaming точно стоят своих 20 долларов за подписку. Ждем о3!
Надо делать анализ угроз для каждого конкретного решения. Для старта подойдет карта с моделированием, которая есть в https://owasp.org/www-project-top-10-for-large-language-model-applications/assets/PDF/OWASP-Top-10-for-LLMs-v2025.pdf (листайте до последней страницы).
Далее, если это b2c приложение, надо делать базовые тесты на промпт-инъекции и ставить от них защиту в системный промпт решения.
В 100% случаев это невозможно, хотя бы потому, что открытые модели могут злоумышленники использовать без контроля. Но будут разработаны методы и guardrails, чтобы снизить этот риск
Удобно, что ты через классы сделал все примеры. Сейчас у crewai везде их декораторы и темплейты, которые усложняют понимание даже простого кода.
Кстати, для агентов у AWS Bedrock есть даже guardrails как продукт для агентных систем https://github.com/awslabs/amazon-bedrock-agent-samples/blob/main/examples/amazon-bedrock-agents/online_banking_agent/images/architecture.png
В OWASP Top 10 LLM до сих пор галлюцинациям отведено место в первом ряду по "уявзимосям" моделей, хотя это к ИБ не имеет прямого отношения
Интересно еще потестировать o1 и deepseek ;)