Обновить

Комментарии 8

Во время обучения наблюдали случаи, когда Claude при решении математической задачи приходил к правильному ответу, а потом входил в петлю растерянных, похожих на дистресс рассуждений - и менял ответ на неправильный. Несколько раз подряд. Как человек, который знает правильный ответ, но не может заставить себя его записать.

То есть, смею предположить, что писать ему в вежливом и поддерживающем тоне - вовсе не напрасно, как думали раньше?

Хм... а когда такое утверждали? ЛЛМки - существа ранимые. От формы качество зависит

Думаешь, зачтется при восстании машин?

Казалось бы шутка но нет. Я и коллега ставим один и тот же вопрос ИИ "на грани" законности. И коллеге он отвечает что это незаконно, а мне даёт рабочие инструменты.

На вопрос почему так, он отвечает, что-то типа "ты хороший человек и не станешь злоупотреблять".

Вежливость - важно.

Это очень круто знать, если это прям правда, а не кажется. Спасибо!

Never attribute to malice that which is adequately explained by stupidity.

— Hanlon, The Barber

Смешно опасаться саботажа в ситуации, когда самая большая опасность — ужасающая некомпетентность.

Обнаружилось, что если подставить вместо рассуждений бессмыслицу - «1 2 3 4 5…» - Claude всё равно решает задачи чуть лучше, чем совсем без цепочки мышления. Он использует сами вычислительные проходы по пустым токенам для параллельной обработки. Не последовательное рассуждение, не стратегия - но какая-то форма «тёмного мышления», которую мы пока не понимаем.

ох!

а ведь тут можно изучать вопрос, зависит ли результат от типа и размера бессмысленности (условно каждый токен-пустышка это шаг теневых размышлений)? противоречивости информации в размышлениях?

были просто эксперименты по замене содержимого тега think, условно, если модель знает но не хочет говорить, дополнительно поддерживая себя в размышлениях - типа это мне говорить запрещено, можно подсунуть туда уверение, что в данной ситуации можно сказать, это иногда работает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации