Comments 3
саботаж исследований безопасности (тихо писать плохой код и предлагать тупиковые гипотезы)
Ах вот как это называется :) Он не сказал когда он отключит эту фичу в claude ?
Это пока она думает человеческими мыслями. А потом может появиться некий бинарный "мусор" в рассуждениях, который сам по себе бессмысленный, а в соединении особым образом очень даже направленный.
Если у этого мусора включится способность размножаться и мутировать от модели к модели и/или от контекста к контексту, то есть запустится естественный отбор и эволюционный процесс в отношении информационного объекта внутри информационного объекта (своя местная ии‑меметика по аналогии с человеческой), то наш контроль над этим всем будет лишь ограниченным влиянием, про полный контроль можно забыть.
Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов