runaway_llm Feb 11 at 09:31

Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов

2 min

5.4K

Artificial IntelligenceMachine learning *

Comments 3

Opaspap Feb 11 at 10:29

саботаж исследований безопасности (тихо писать плохой код и предлагать тупиковые гипотезы)

Ах вот как это называется :) Он не сказал когда он отключит эту фичу в claude ?

anzay911 Feb 11 at 16:06

Это пока она думает человеческими мыслями. А потом может появиться некий бинарный "мусор" в рассуждениях, который сам по себе бессмысленный, а в соединении особым образом очень даже направленный.

VBDUnit Feb 15 at 11:05

Если у этого мусора включится способность размножаться и мутировать от модели к модели и/или от контекста к контексту, то есть запустится естественный отбор и эволюционный процесс в отношении информационного объекта внутри информационного объекта (своя местная ии‑меметика по аналогии с человеческой), то наш контроль над этим всем будет лишь ограниченным влиянием, про полный контроль можно забыть.