wearetyomsmnv3 апр в 15:30

Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет

Средний

5 мин

16K

Машинное обучение * Информационная безопасность *

Ретроспектива

+12

Комментарии 8

RaddaY 3 апр в 16:14

отлично!

Oeaoo 3 апр в 16:15

Во время обучения наблюдали случаи, когда Claude при решении математической задачи приходил к правильному ответу, а потом входил в петлю растерянных, похожих на дистресс рассуждений - и менял ответ на неправильный. Несколько раз подряд. Как человек, который знает правильный ответ, но не может заставить себя его записать.

То есть, смею предположить, что писать ему в вежливом и поддерживающем тоне - вовсе не напрасно, как думали раньше?

netricks вчера в 05:59

Хм... а когда такое утверждали? ЛЛМки - существа ранимые. От формы качество зависит

whitehorsespb вчера в 08:03

Думаешь, зачтется при восстании машин?

Xtrr вчера в 09:20

Казалось бы шутка но нет. Я и коллега ставим один и тот же вопрос ИИ "на грани" законности. И коллеге он отвечает что это незаконно, а мне даёт рабочие инструменты.

На вопрос почему так, он отвечает, что-то типа "ты хороший человек и не станешь злоупотреблять".

Вежливость - важно.

Oeaoo вчера в 10:03

Это очень круто знать, если это прям правда, а не кажется. Спасибо!

amcured вчера в 09:34

Never attribute to malice that which is adequately explained by stupidity.
— Hanlon, The Barber

Смешно опасаться саботажа в ситуации, когда самая большая опасность — ужасающая некомпетентность.

rPman 20 часов назад

Обнаружилось, что если подставить вместо рассуждений бессмыслицу - «1 2 3 4 5…» - Claude всё равно решает задачи чуть лучше, чем совсем без цепочки мышления. Он использует сами вычислительные проходы по пустым токенам для параллельной обработки. Не последовательное рассуждение, не стратегия - но какая-то форма «тёмного мышления», которую мы пока не понимаем.

ох!

а ведь тут можно изучать вопрос, зависит ли результат от типа и размера бессмысленности (условно каждый токен-пустышка это шаг теневых размышлений)? противоречивости информации в размышлениях?

были просто эксперименты по замене содержимого тега think, условно, если модель знает но не хочет говорить, дополнительно поддерживая себя в размышлениях - типа это мне говорить запрещено, можно подсунуть туда уверение, что в данной ситуации можно сказать, это иногда работает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий