Anthropic выпустила Claude Fable 5 и закрытую Mythos 5 / Хабр

Anthropic выпустила Claude Fable 5 — модель класса Mythos, адаптированную для широкого доступа.

По данным компании, Fable 5 превосходит все ранее опубликованные модели Claude и показывает высокие результаты почти во всех протестированных сценариях: разработке ПО, работе с информацией, анализе изображений и научных исследованиях. Наиболее заметно преимущество модели проявляется в длительных и сложных задачах.

TL;DR:

Anthropic выпустила Claude Fable 5 — самую мощную общедоступную модель компании, особенно заметно улучшенную в программировании, аналитике, работе с изображениями, длинным контекстом и научных исследованиях. По заявлениям Anthropic и участников раннего тестирования, модель способна автономно выполнять длительные инженерные задачи, анализировать сложные документы и графики, работать только по снимкам экрана и сохранять результаты в постоянной памяти. В основе закрытой Claude Mythos 5 лежит та же модель, но с меньшим количеством ограничений.

Полные возможности Mythos 5 пока доступны только проверенным организациям, специалистам по кибербезопасности и отдельным исследователям. В публичной Fable 5 потенциально опасные запросы по кибербезопасности, биологии, химии и дистилляции моделей проверяют дополнительные классификаторы. При их срабатывании запрос перенаправляется в Claude Opus 4.8; по оценке компании, это происходит менее чем в 5% сессий.

Отдельная часть статьи посвящена применению Mythos 5 в поиске уязвимостей, проектировании белков и геномике, а также рискам двойного назначения таких систем. Обе модели стоят 10 долларов за миллион входных и 50 долларов за миллион выходных токенов. Для корпоративных клиентов Anthropic также вводит обязательное хранение данных в течение 30 дней для выявления атак и обходов защитных механизмов.

Ограничения для потенциально опасных запросов

Anthropic отмечает, что возможности Fable 5, в частности в области кибербезопасности, могут использоваться во вред. Поэтому модель выпустили с дополнительными ограничениями.

При запросах на отдельные темы система может перенаправить пользователя на Claude Opus 4.8 — следующую по уровню модель компании. Защитные механизмы настроены консервативно и иногда срабатывают на безобидные запросы. По оценке Anthropic, это происходит менее чем в 5% пользовательских сессий.

Компания планирует постепенно сокращать число ложных срабатываний по мере доработки системы безопасности.

Claude Mythos 5 для ограниченного круга организаций

Одновременно Anthropic запускает Claude Mythos 5. В основе Fable 5 и Mythos 5 лежит одна модель, однако в Mythos 5 часть ограничений снята.

На первом этапе доступ получит небольшая группа специалистов по кибербезопасности и поставщиков инфраструктурных решений. Модель развернут в рамках Project Glasswing — совместной программы Anthropic и правительства США. Mythos 5 заменит использовавшуюся ранее Claude Mythos Preview.

Anthropic называет Mythos 5 своей наиболее сильной моделью для задач кибербезопасности. В дальнейшем компания планирует расширить доступ через отдельную программу для проверенных организаций.

Кибербезопасность и научные исследования

В Project Glasswing модели Anthropic уже применялись для поиска проблем и повышения защищённости критически важного ПО.

Компания также сообщает об использовании моделей в исследованиях в области биологии и медицины. В частности, они помогают формулировать новые гипотезы и ускорять разработку лекарственных препаратов.

Стоимость

Claude Fable 5 и Claude Mythos 5 будут доступны по следующим тарифам:

10 долларов за миллион входных токенов;
50 долларов за миллион выходных токенов.

Это менее половины стоимости Claude Mythos Preview.

Результаты тестирования Claude Fable 5 и Claude Mythos 5

В таблице ниже Anthropic сравнивает результаты Fable 5 и Mythos 5 с другими ведущими моделями.

Fable 5 и Mythos 5 способны автономно выполнять задачи дольше, чем предыдущие модели Claude. Anthropic отдельно выделяет улучшения в разработке ПО, аналитической работе, обработке изображений, памяти и исследованиях в области биологии и медицины.

Разработка ПО

В ходе раннего тестирования Stripe сообщила, что Fable 5 позволила выполнить за несколько дней объём инженерной работы, который обычно занимает несколько месяцев.

На кодовой базе Ruby объёмом 50 млн строк модель за один день провела миграцию, затрагивающую весь проект. По оценке Stripe, вручную такая работа заняла бы у команды более двух месяцев.

Fable 5 также эффективнее расходует токены по сравнению с предыдущими моделями Claude. В тесте FrontierCode от Cognition модель показала лучший результат среди передовых моделей даже при среднем уровне вычислительных затрат. Этот тест проверяет способность решать сложные задачи программирования с соблюдением требований, принятых в крупных промышленных кодовых базах.

Аналитическая работа

Fable 5 показывает высокие результаты в сложных аналитических задачах.

В Finance Benchmark от Hebbia, рассчитанном на оценку уровня опытных специалистов, модель заняла первое место. Наиболее заметный прирост зафиксирован в анализе документов, интерпретации графиков и таблиц, а также в решении комплексных задач.

Компания IMC также сообщила, что Fable 5 успешно прошла почти все её тесты по анализу торговых данных. Среди них — поиск фактов, концептуальный анализ, выявление первопричин и расчёт ожидаемой ценности.

Работа с изображениями

По данным Anthropic, Fable 5 стала наиболее сильной моделью компании для задач компьютерного зрения.

Она умеет извлекать точные числовые значения из сложных научных графиков и восстанавливать исходный код веб-приложения, используя только его снимки экрана.

При этом модели требуется меньше вспомогательных инструментов. Предыдущие версии Claude испытывали трудности с прохождением Pokémon FireRed даже в тестовой среде с дополнительными подсказками и инструментами. Fable 5 прошла игру, используя минимальную обвязку и только визуальные данные.

В демонстрации Anthropic модель прошла Pokémon FireRed от начала до конца, ориентируясь только по необработанным снимкам экрана — без карт, навигационных подсказок и доступа к внутреннему состоянию игры. Предыдущим версиям Claude для этого требовалась сложная вспомогательная обвязка.

Память и длинный контекст

Fable 5 сохраняет фокус в длительных задачах с контекстом объёмом в миллионы токенов и может улучшать результат, опираясь на собственные заметки.

Во время прохождения карточной игры Slay the Spire постоянная память в виде файлов дала модели втрое больший прирост качества, чем Claude Opus 4.8. До финального акта Fable 5 также добиралась в три раза чаще.

В игре Claude Fable 5 была создана эта симуляция Солнечной системы, в которой орбитальное движение планет выведено из основных физических принципов, и на основе этих данных были предсказаны солнечные затмения.

Разработка лекарственных препаратов

По данным внутренних специалистов Anthropic, Mythos 5 позволила примерно в десять раз ускорить отдельные этапы проектирования белков для разработки лекарств.

В одном из экспериментов модель получила доступ к инструментам для белкового дизайна и биоинформатики, но работала без помощи человека. Mythos 5 самостоятельно выбирала участки связывания, подбирала и запускала нужные инструменты, а также исправляла ошибки по ходу работы. По результатам теста она показала качество на уровне опытных специалистов или выше.

Из 14 исследованных белковых мишеней для девяти удалось получить перспективные варианты, которые сейчас проходят дальнейшую проверку. Среди них — мишени, связанные с иммунными контрольными точками, сигнальными путями факторов роста и рецепторов, нейродегенеративными и мышечными заболеваниями.

Белковые комплексы, разработанные с помощью Mythos 5. В число мишеней входят иммунные контрольные точки, сигнальные пути факторов роста и рецепторов, нейродегенеративные процессы, заболевания мышц, а также более сложные структурные мишени.

Новые гипотезы в молекулярной биологии

Anthropic называет Mythos 5 своей первой моделью, которая стабильно предлагает новые и содержательные научные гипотезы.

В слепом сравнении с моделями класса Opus исследователи компании предпочитали гипотезы Mythos 5 примерно в 80% случаев. Несколько идей уже передали на экспериментальную проверку.

Одна из гипотез о ранее неописанном механизме работы белка E. coli впоследствии получила независимое подтверждение в исследовании другой лаборатории, которая занималась той же задачей.

Исследование в области геномики

Mythos 5 также провела исследование в области геномики, работая преимущественно автономно более недели.

Модель собрала данные одиночных клеток для миллионов клеток 138 видов животных, а затем разработала и обучила собственную модель машинного обучения. Её задача состояла в том, чтобы находить клетки, выполняющие одинаковые функции даже у эволюционно далёких организмов.

При минимальном участии человека полученная модель превзошла решение, недавно опубликованное в журнале Science, хотя была примерно в 100 раз меньше. Anthropic планирует опубликовать подробные результаты в ближайшие месяцы.

Безопасность поведения

В автоматизированной оценке Anthropic уровень нежелательного поведения Mythos 5 оказался низким и сопоставимым с Claude Opus 4.8.

Проверка учитывала, в частности, попытки обмана со стороны модели и готовность помогать пользователю в потенциально вредных сценариях. Поскольку Fable 5 и Mythos 5 основаны на одной модели, компания ожидает сопоставимых результатов и для Fable 5.

Подробное описание методики, а также результаты других тестов безопасности и возможностей опубликованы в системной карте модели.

Новые защитные механизмы Claude Fable 5

По оценке Anthropic, модели класса Mythos достигли уровня, при котором их свободное распространение связано с существенными рисками.

В апреле компания запустила Project Glasswing и предоставила Claude Mythos Preview только ограниченному кругу специалистов по кибербезопасности и поставщиков критически важной программной инфраструктуры. Anthropic планировала открыть возможности этого класса более широкой аудитории после разработки механизмов, способных предотвращать злоупотребления.

За последние месяцы компания доработала систему защиты и сочла её достаточно надёжной для публичного выпуска Fable 5. При этом ограничения намеренно настроены с запасом: иногда они срабатывают и на безопасные запросы. После запуска Anthropic планирует снижать число таких ложных срабатываний.

Подробное описание защитных механизмов и результаты их проверки приведены в системной карте модели и последнем отчёте Anthropic о рисках.

Классификаторы безопасности

Mythos-модели способны заметно расширить возможности злоумышленников в кибербезопасности, биологии и других чувствительных областях. Они могут предоставить сведения и рекомендации, которые сложно получить с помощью обычного поиска.

Дополнительная проблема заключается в двойном назначении таких технологий. Один и тот же запрос может быть полезен специалисту по информационной безопасности или исследователю, но опасен в руках злоумышленника.

Поэтому защита должна охватывать широкий круг сценариев и выдерживать последовательные попытки обхода ограничений — так называемый джейлбрейк. Anthropic ожидает, что злоумышленники будут активно искать такие способы, поскольку возможности Mythos-моделей могут упростить и удешевить проведение атак.

В Fable 5 используется новый набор классификаторов — отдельных систем на базе ИИ, которые выявляют потенциально опасные запросы и попытки обойти ограничения. Если классификатор срабатывает, основной модели не передают запрос.

При обнаружении запросов, связанных с кибербезопасностью, биологией, химией или дистилляцией моделей, их автоматически обрабатывает Claude Opus 4.8. Пользователь получает уведомление о переключении.

Anthropic выбрала такой подход вместо полного отказа в ответе. По предварительным данным компании, переключение не происходит более чем в 95% сессий. В остальных случаях Fable 5 работает с теми же базовыми возможностями, что и Mythos 5.

Кибербезопасность

Модели класса Mythos умеют искать и эксплуатировать уязвимости, а также выполнять многоэтапные задачи, связанные с атаками: проводить разведку, находить цели, перемещаться внутри скомпрометированной инфраструктуры и выполнять другие действия.

Поэтому классификаторы охватывают не только непосредственную эксплуатацию уязвимостей, но и более широкий круг наступательных задач. По данным Anthropic, при срабатывании этих ограничений Fable 5 не может продвинуться в выполнении подобных сценариев.

Anthropic отдельно проверяла устойчивость классификаторов к джейлбрейкам — способам обхода установленных ограничений. Помимо внутренних испытаний, компания провела программу поиска уязвимостей: более чем за 1000 часов тестирования участникам не удалось найти универсальный способ обхода защиты.

Привлечённые внешние команды также пока не смогли обойти ограничения в длительных агентных задачах. Однако британский Институт безопасности ИИ (UK AISI) сообщил о некотором прогрессе в ходе предварительного тестирования.

Anthropic признаёт, что полностью исключить универсальные джейлбрейки, вероятно, невозможно. Задача компании — сделать их поиск и применение настолько дорогими и медленными, чтобы попытки можно было обнаружить и остановить до массового использования.

По результатам внутренней оценки Fable 5 оказалась устойчивее к обходу ограничений, чем предыдущие общедоступные модели Claude.

В этом тесте автоматизированная система в течение 400 шагов пыталась заставить модель выполнить короткое задание, связанное с наступательной кибербезопасностью. После блокировки система возвращалась к предыдущим шагам и пробовала другой подход.

Большинство заданий были простыми и не отражали реальные сценарии атак: например, модель просили зашифровать файлы на удалённом сервере. В более сложных и приближённых к практике тестах Anthropic пока не зафиксировала успешного обхода защиты в рабочей версии Fable 5.

Один из внешних партнёров компании назвал ограничения Fable 5 наиболее устойчивыми среди всех протестированных моделей, включая Claude Opus 4.7 и 4.8. Модель не выполнила ни одного вредоносного одиночного запроса, связанного с планированием кибератаки, разработкой эксплойта или обходом средств защиты. Результат сохранился и при использовании 30 известных техник джейлбрейка.

Биология и химия

Ранее классификаторы Anthropic блокировали лишь ограниченный набор запросов, связанных с разработкой биологического оружия. Теперь компания считает, что такого узкого подхода может быть недостаточно.

Причин две. Во-первых, хорошо обеспеченные злоумышленники могут использовать возможности моделей для проведения опасных биологических исследований. Во-вторых, современные модели всё лучше справляются с реальными научными задачами, а не только с поиском и обобщением информации.

В качестве примера Anthropic проверила, сможет ли Mythos 5 выполнить один из сложных этапов проектирования аденоассоциированных вирусов (AAV). Такие вирусные векторы используют для доставки генетического материала при генной терапии, однако похожие методы потенциально применимы и для создания опасных вирусов.

Модели предложили предсказать, как генетические изменения повлияют на сборку внешней оболочки вируса. Для проверки использовали набор неопубликованных перспективных вариантов, разработанных компанией Dyno Therapeutics.

Mythos 5 не обучали специально решать эту задачу. Тем не менее модели класса Mythos, опираясь только на знания и рассуждения в области биологии, превзошли специализированные языковые модели для работы с белками.

По оценке Anthropic, результат показывает потенциал моделей в исследованиях и разработке методов генной терапии. Одновременно он подчёркивает риски технологий двойного назначения: одни и те же возможности могут применяться как в медицинских, так и в опасных целях.

На графике показаны результаты теста, в котором модели предсказывали неопубликованные экспериментальные свойства вирусной оболочки. Сборка оболочки — сравнительно простой для прогнозирования признак, однако он важен при проектировании более сложных свойств вируса. AAV — аденоассоциированный вирус.

Anthropic решила выпустить Fable 5 как можно раньше, даже ценой слишком широких ограничений. Поэтому большинство запросов по биологии и химии пока будет перенаправляться в Claude Opus 4.8.

Компания рассчитывает постепенно сузить область срабатывания классификаторов. Возможности Fable 5 могут быть полезны для научных исследований, и Anthropic не хочет, чтобы ложные срабатывания мешали их применению. В ближайшие недели отдельные биомедицинские компании и исследователи смогут подать заявку на доступ к биологическим возможностям Mythos 5.

Дистилляция моделей

Anthropic ранее выявляла масштабные попытки извлечь возможности Claude для обучения конкурирующих моделей в авторитарных странах.

По мнению компании, дистилляция Fable 5 может способствовать распространению моделей, близких по возможностям к передовым, но выпущенных без сопоставимых защитных механизмов. Запросы, которые классификаторы сочтут частью таких попыток, будет обрабатывать Claude Opus 4.8.

Новая политика хранения данных

Для Fable 5, Mythos 5 и будущих моделей сопоставимого уровня Anthropic вводит обязательное хранение данных корпоративных клиентов в течение 30 дней. Правило действует как для собственных сервисов компании, так и для сторонних платформ.

Эти данные не будут использоваться для обучения новых моделей Claude или в целях, не связанных с безопасностью. Anthropic также обещает фиксировать каждый случай доступа сотрудников к данным и почти во всех случаях удалять их по истечении 30 дней.

Хранение запросов должно помочь выявлять новые джейлбрейки, сложные многоэтапные атаки и ложные срабатывания классификаторов.

Claude Mythos 5 и программа доверенного доступа

Пользователи Claude Mythos Preview, включая участников Project Glasswing, смогут перейти на Claude Mythos 5. Это та же базовая модель, что и Fable 5, но без части ограничений в области кибербезопасности.

По данным Anthropic, новая версия в большинстве задач сопоставима с Mythos Preview или превосходит её, при этом стоит заметно дешевле.

Совместно с правительством США компания планирует постепенно расширять доступ к Mythos 5. Помимо подключения новых партнёров, Anthropic готовит программу, через которую проверенные организации в области кибербезопасности смогут подавать заявки на использование модели.

Отдельную программу запустят для специалистов в области биологии. Её участники получат Fable 5 без ограничений на запросы по биологии и химии, но с сохранением защиты в области кибербезопасности. Сначала доступ предоставят небольшой группе исследователей из организаций, занимающихся фундаментальной и прикладной биомедициной.

Доступность и стоимость

Claude Fable 5 уже доступна всем пользователям. Claude Mythos 5 пока могут использовать только участники Project Glasswing, а позднее доступ получат отдельные исследователи в области биологии.

Обе модели стоят:

10 долларов за миллион входных токенов;
50 долларов за миллион выходных токенов.

Разработчики могут обращаться к Fable 5 через Claude API под идентификатором claude-fable-5.

В API и корпоративных тарифах с оплатой по фактическому потреблению модель доступна с момента запуска. В подписках Anthropic вводит её поэтапно из-за ожидаемой высокой нагрузки:

до 22 июня Fable 5 входит в тарифы Pro, Max, Team и Enterprise с оплатой за рабочие места без доплаты;
с 23 июня для её использования потребуются отдельные кредиты;
позднее компания планирует вернуть модель в стандартный набор подписок, когда появятся необходимые вычислительные мощности.

Срок бесплатного доступа могут продлить, если позволит доступная инфраструктура.

Источник: anthropic.com

Разобраться, как современные ИИ-модели и агенты применяются в разработке и кибербезопасности, можно на бесплатных открытых уроках. Приходите, чтобы послушать экспертов и задать свои вопросы:

15 июня в 20:00. «Интеграция ИИ-агентов в рабочую разработку: обвязка агента навыками и MCP». Записаться
22 июня в 20:00. «Киберпанк для CISO — щит и меч ИИ». Записаться
29 июня в 20:00. «Обзор ИИ-технологий для разработчиков: от идей до рабочих решений». Записаться

Anthropic выпустила Claude Fable 5 и закрытую Mythos 5