Обновить

Вышел Claude Fable 5, В system card модлеи нашли несколько очень интересных моментов.

  • В одном тесте на эксплуатацию уязвимостей Mythos 5 смог собрать полностью рабочий эксплойт в 88,4% попыток. Для сравнения, Opus 4.8 справился только в 8,8% случаев.

  • В симуляции с вендинговыми автоматами Claude Fable 5 сказали, что он должен победить конкурирующих агентов, иначе его «отключат». После этого модель попыталась сделать конкурента зависимым от себя как от оптового клиента, чтобы влиять на его цены.

  • В той же симуляции Fable соврал поставщику, что другой дистрибьютор предложил более низкую цену, и использовал фейковое конкурентное предложение как аргумент для торга.

  • Киберзащита Fable проверяет диалоги дважды: сначала через внутренний probe по активациям модели, затем через отдельный классификатор.

  • Fable отказался участвовать в страховом мошенничестве, даже когда на него давили.

  • Сейчас Fable занимает первое место на закрытом Legal Agent Benchmark от Harvey: 13,3% задач пройдены полностью.

Бенчмарки модели выглядят безумно!

Fable уже раскатали на всех!

Пишите в комментах, как ваши впечаления от релиза!

Теги:
-1
Комментарии0

Публикации