Comments 16
Anthropic выпустила модель, преимущество которой раскрывается только в информационной безопасности, но в итоге эта модель отказывается работать даже близко к похожей теме.
Да и публичная версия лоботомированная относительно той, чтобы была доступна узкому кругу лиц. Прям максимальное разочарование
Лично мне кажется, что улучшение способностей модели - это не результат мощности модели как таковой. Есть ощущение, что Антропики нащупали удачный харнесс, который позволяет дробить суждения на более мелкие суждения, которые проверяются ворохом каких-нибудь опровергателей. Может ещё и математика замешана, когда язык суждений переводится в строгую математическую формулу.
А может и вовсе не существует Sonnet, Opus, Fable как таковых. И они лишь построены на платформе небольших LLM, с вылизанными до блеска способностями в логику. Отличие только в масштабе архитектуры. У Sonnet - небольшая, а Opus - это пачка Соннетов в определенной конфигурации. Ну и так далее.
И главное - все эти варианты масштабируемы. Можно построить систему ещё мощнее, закупив 100500 миллионов серверов. И наоборот, если надо сделать модель потупее, то это делается очень просто.
Я просто сам для себя делаю такую систему на основе моделей Клода, с верификациями, опровергателями, судьями и состязательной панелью. Оттого и такое предположение
А почему только Клода? Я в ручном режиме пробовал разные модели, чтобы увеличить разброс и было меньше склонности соглашаться. Типа бесплатные ощутимо хуже, а за зоопарк платных платить не хочется?
Про миф/сказку ты попал в точку, но опус все же не пачка соннетов, а куда большая модель.
У Mythos есть отличие. Тут описывал:
https://habr.com/ru/companies/gazprombank/articles/1026124/comments/#comment_29866508
Смысл в том, что рассуждения работают иначе. Там есть внутренние циклы, которые прибавляются к начальному контексту, это усиливает начальный контекст и не даёт модели терять его. Но это так же увеличивает затраты на инференс, так как требуется дополнительно до 4-8 проходов на блок (если я правильно помню из разбора архитектуры OpenMythos). Поэтому в худшем сценарии модель может потреблять в 8 раз больше расчетов на инференс.
Архитектурная разница есть. В этом случае контекст более устойчивый при рассуждении и рассуждения сразу точнее. Но при этом данная модель сильно более затратная. Я не знаю сколько циклов заложено для обычно потребителя. В описании архитектуры было до 8 циклов. Но для потребителя они могли снизить их например до 2 или 4, установить более большие пороги прекращения цикла.
Так что в любом случае данная архитектура более прожорливая. И главное преимущество, это удержание контекста. Но с учётом современного подхода, когда модели постоянно переключаются - я не уверен, что это сильно эффективно.

Это как сжимать данные одним архиватором, потом в середине процесса другим архиватором и потом продолжить снова сжимать первым.
Думаю в скором времени китайцы перенесут этот подход в открытые модели.
Если я не ошибаюсь, то open mythos не имеет отношения к антропиковскому в плане архитектуры.
Не совсем, OpenMythos и оригинальный Mythos от Anthropic хотя технически разные вещи (потому что Anthropic не раскрывает Mythos), но изначально OpenMythos являлся попыткой воссоздать архитектуру Anthropic на основе утекших данных и научных публикаций. Поэтому архитектурно, они должны быть одинаковые или схожие. Тут об этом как раз:
https://juliangoldie.com/open-mythos/
Аналогично тут:https://skillsllm.com/skill/openmythos
Тут два главных смысла, это Рекурсивная глубина (Recurrent-Depth Transformer / Looped Transformer): на чем и построен "прорыв" Mythos связанный с цикличным использованием слоев. То есть вместо сотен последовательных уникальных слоев, модель многократно (N раз) прогоняет скрытое состояние через один и тот же базовый блок с общими весами.
И рассуждение в латентном пространстве (сейчас несколько таких архитектур было особенно с начала 2026). Тут что в оригинальной идее Mythos, что в OpenMythos процесс мышления (он же reasoning) происходит скрытно и непрерывно внутри forward. Поэтому модели не генерирует промежуточный текстовый пошаговый лог (как в CoT).
Поэтому, взяли рекуррентный трансформер и скрестили его с идеей рассуждения в латетном пространстве (с подачей изначального сигнала на вход для удержания контекста). Я бы сказал так, что Anthropic взяли удачные работы по этим направлениям и использовали в своей архитектуре. Собственно поэтому OpenMythos можно считать ближайшим аналогом.
Я не верю, что Anthropic с нуля разработали что-то свое. А вот вобрать удачные решения 2025-2026 года уверен.
LLM сегодня be like:

Mythos который без цензуры выпустят позже, а fable 5 доступен по-моему дней 12 в подписке pro+ а потом только api. Но цены словно для миллионеров делали, а нахрена она зацензуренная? Учитывая что ее уже успели прогнать по задачам, в конкретике она сыпется по сравнению с гпт5.5, а на длинных задачах скорее ты станешь банкротом.
Глянул ещё бенчмарк данной модели в сравнении, то сомневаться я стал в этих всех бенчмарках, учитываю что это прогон в медиа anthropic в связи с IPO
- Как продать то же самое, но в два раза дороже?
- Давайте припишем моделе мифические свойства!
- Но люди же все поймут при релизе.
- А мы скажем что она настолько ох*енная, что нам пришлось как раз таки и ограничить эти функции из-за соображений безпосаности!
- А точно проканает?
- Не парьтесь, они до сих пор верят в идею, что нейросеть заменит им программиста, они готовы платить нам 3 его оклада за сомнительный результат, лишь бы оптимизировать!!! Главное побольше слов про оптимизацию и умение писать код!
Ого! Fable написала статью о себе и выложила на Хабр! Ничоси!
Каково это — работать с Fable 5 (Mythos)