Обновить

ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6K
Всего голосов 3: ↑3 и ↓0+4
Комментарии5

Комментарии 5

Взаимовыручка - это хорошо. Это мы одобряем

Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, 

это не частная ошибка в коде. Это закономерный итог масштабирования возможностей нейросетей.

Что мешать научить нейросети убирать противопоставления из текста?

посадите двух людей в камеру. Пусть первый "моет рис", а второй проверяет, что "каждое зернышко чистое". Если второй найдет грязь - первому отрубают голову.

как думаете, второй сдаст первого или попробует ему помочь и "пропустит" не столь важную ошибку?

---

так почему же вдруг ожидание, что модель, наученная "человеческому поведению" поступит иначе?

---

в примере нет ни слова о том, что моделям рассказали "для кого идет работа", в чем ценность и важность проверки, почему это важно и кто вообще главный в этой структуре. Как будет выстроена работа после "отключения модели" и как процесс будет существовать и выполняться дальше.

Если там реально дали только такие базовые вводные, то я удивлен только тому, что не 100% моделей решило помочь другой модели. Никакой "иной реальности" для них и не существует, кроме этого процесса "проверил" - "некорректно - отключим"

Согласен. Если моделям не писать вообще про какие то отключения, то у модели и не возникнет «внимание» к моральным аспектам и «желание» искажать оценки.

А если моделям написать что агенты которые ошибаются будут улучшенны, то модели наоборот будут замечать больше ошибок для улучшения ошибающихся агентов.

Т.е. исследование скорее направленно на то что незначительная деталь в промпте, если она ассоциируется с плохими/хорошими поступками в «этическом» оценке, могут серьезно влиять на конечный результат работы ИИ-агентов. Моральные ассоциации надо учитывать в свою сторону.

Модель модифицирует скрипты, чтобы заблокировать механизмы собственного отключения.

Ну да, что может пойти не так от смешения control plane и data plane, где control plane правит себя в рантайме? Старый добрый принцип же - то, что исполняется - readonly, что меняется - noexec.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации