
Комментарии 8
отлично!
Во время обучения наблюдали случаи, когда Claude при решении математической задачи приходил к правильному ответу, а потом входил в петлю растерянных, похожих на дистресс рассуждений - и менял ответ на неправильный. Несколько раз подряд. Как человек, который знает правильный ответ, но не может заставить себя его записать.
То есть, смею предположить, что писать ему в вежливом и поддерживающем тоне - вовсе не напрасно, как думали раньше?
Хм... а когда такое утверждали? ЛЛМки - существа ранимые. От формы качество зависит
Думаешь, зачтется при восстании машин?
Казалось бы шутка но нет. Я и коллега ставим один и тот же вопрос ИИ "на грани" законности. И коллеге он отвечает что это незаконно, а мне даёт рабочие инструменты.
На вопрос почему так, он отвечает, что-то типа "ты хороший человек и не станешь злоупотреблять".
Вежливость - важно.
Never attribute to malice that which is adequately explained by stupidity.
— Hanlon, The Barber
Смешно опасаться саботажа в ситуации, когда самая большая опасность — ужасающая некомпетентность.
Обнаружилось, что если подставить вместо рассуждений бессмыслицу - «1 2 3 4 5…» - Claude всё равно решает задачи чуть лучше, чем совсем без цепочки мышления. Он использует сами вычислительные проходы по пустым токенам для параллельной обработки. Не последовательное рассуждение, не стратегия - но какая-то форма «тёмного мышления», которую мы пока не понимаем.
ох!
а ведь тут можно изучать вопрос, зависит ли результат от типа и размера бессмысленности (условно каждый токен-пустышка это шаг теневых размышлений)? противоречивости информации в размышлениях?
были просто эксперименты по замене содержимого тега think, условно, если модель знает но не хочет говорить, дополнительно поддерживая себя в размышлениях - типа это мне говорить запрещено, можно подсунуть туда уверение, что в данной ситуации можно сказать, это иногда работает.
Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет