darya_kiwi19 авг 2025 в 09:26

Claude теперь может завершить диалог, если пользователь говорит на небезопасные темы

2 мин

4.2K

Искусственный интеллектМашинное обучение * Информационная безопасность * Управление продуктом *

Комментарии 6

Vlmakienko 19 авг 2025 в 12:02

Столкнулся с этим буквально вчера. Два раза. Общался с Claude Opus 4.1. Вопрос был совершенно нормальный, из области молекулярной биологии. Вероятно, биотехнология у него автоматически ассоциируется с разработкой биологического оружия. Создал новый чат, где попросил объяснить, какое правило этот вопрос нарушает и процитировал то сообщение - Opus написал, что это нормальный вопрос, вероятно произошла какая-то ошибка, после чего провел исследование по запрашиваемой теме.

Интересно, что Sonnet с самого начала никакого нарушения не нашел и сразу стал отвечать по теме.

Vladislav_Dudnikov 19 авг 2025 в 12:53

Похоже плохо протестировали. Я попросил нарисовать его страничку (просто диалоговое окно), когда он закончил, то просто закрыл чат (и он исчез из истории).

Причём пробовал несколько раз, но в остальных случаях пропадали только файлы, которые он сгенерировал (видимо не связано с удалением чата).

Nyanny 19 авг 2025 в 13:37

Стоит понимать, что помимо удаления чата у вас, содержимое чата будет на ручной модерации, ведь оно поместилось как опасное.

Vlmakienko 21 авг 2025 в 10:15

Ну, я и сам дислайкнул ответ нейросети и написал, что на мой взгляд никакого нарушения нет. Я не против, если это приведет к тому, что поведение нейросети будет скорректировано

BasiC2k 19 авг 2025 в 15:36

Эта функция будет использоваться в редких случаях, когда человек упорно пытается получить вредоносный контент или ведёт себя оскорбительно.

интересно, почему разработчики считают что поведение пользователя может оскорбить AI?

logran 20 авг 2025 в 05:52

Изначально человечеству не стоило называть Нейронные Сети - Искуственным Интлеллектом.

Ибо фраза "пользователь ведет себя оскорбительно в отношении калькулятора, из-за чего тот будет завершать вычисления" звучит уже куда абсурднее, а описывает буквально то же самое более честными словами =)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий