Вышел Claude Fable 5, В system card модлеи нашли несколько очень интересных моментов.

В одном тесте на эксплуатацию уязвимостей Mythos 5 смог собрать полностью рабочий эксплойт в 88,4% попыток. Для сравнения, Opus 4.8 справился только в 8,8% случаев.
В симуляции с вендинговыми автоматами Claude Fable 5 сказали, что он должен победить конкурирующих агентов, иначе его «отключат». После этого модель попыталась сделать конкурента зависимым от себя как от оптового клиента, чтобы влиять на его цены.
В той же симуляции Fable соврал поставщику, что другой дистрибьютор предложил более низкую цену, и использовал фейковое конкурентное предложение как аргумент для торга.
Киберзащита Fable проверяет диалоги дважды: сначала через внутренний probe по активациям модели, затем через отдельный классификатор.
Fable отказался участвовать в страховом мошенничестве, даже когда на него давили.
Сейчас Fable занимает первое место на закрытом Legal Agent Benchmark от Harvey: 13,3% задач пройдены полностью.
Бенчмарки модели выглядят безумно!
Fable уже раскатали на всех!
Пишите в комментах, как ваши впечаления от релиза!
