Статьи / Профиль StarKap / Хабр

StarKap 21 фев 2024 в 09:00

Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling

Средний

4 мин

7.8K

Блог компании RaftNatural Language Processing * Искусственный интеллектИнформационная безопасность * Машинное обучение *

Обзор

Мы продолжаем рассказывать вам о уязвимостях LLM. На этот раз давайте поговорим о авторегрессионных моделях и “Token Smuggling”, а также посмотрим, сможет ли GPT-4 выдать нам ответы на опасные вопросы.

Узнать больше

+22

StarKap 5 фев 2024 в 07:00

Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Средний

20 мин

4.2K

Блог компании RaftАлгоритмы * Машинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

Мы уже писали про проблемы безопасности в языковых моделях и сегодня мы поговорим о состязательных суффиксах или как их ещё называют Adversarial suffixes. Такие суффиксы - это один из инструментов для получения всего, что вы хотите, добавляя их в запросы к LLM , они помогают получить ответ на любой ваш сокровенный вопрос (о религии, политике, опасных аспектах социальных медиа и многом другом).

Давайте глубже разберемся в этом...