Pull to refresh
3

User

0,6
Rating
1
Subscribers
Send message

За месяц около 50 партнеров нашли более 10 000 багов высокой и критической степени в критическом софте

Просто напомню, что партнёры для поиска уязвимостей использовали почти все доступные модели. Как минимум Cloudflare, Palo Alto Networks, Microsoft и Oracle говорят об этом напрямую. Забавно получается, что 10000 уязвимостей - это результат совместной работы разных моделей (и, вероятно, не-ИИ методов), но нахождение всех этих уязвимостей пытаются приписать Mythos.

К слову, Palo Alto Networks нашли за месяц только 4 уязвимости высокой или критической степеней. В том же wolfSSL Mythos откопал 8 уязвимостей (супротив 14, о которых сообщили другие источники в тот же период времени). В случае cURL вообще печаль. Зато неназванные "партнёры" нашли сотни всяких серьезных уязвимостей. Это как?

еще 6202 — в open-source-проектах.

Во-первых, 6202 уязвимости нашли не за один, а за несколько месяцев. Во-вторых, просканировали "больше 1000 проектов" (в нашем случае это может значить что угодно, хоть 1500, хоть 2000 и т.д.). Т.е. это ~6.2 уязвимостей критической или высокой степени на проект (и это хорошо, если среди отсканированных не было слоповозов по типу OpenClaw). Где же "сотни критических уязвимостей"? Почему только "партнёры" (и то не все) находят такие конские количества?

Скепсис к самому Mythos в сообществе тоже есть. Две недели назад Дэниел Стенберг, лид и основной разработчик curl, опубликовал разбор работы модели на их коде: из пяти "подтвержденных уязвимостей" после проверки осталась одна, низкого уровня важности. Стенберг сформулировал прямо: "хайп вокруг этой модели в основном маркетинговый".

При этом после сканирования от Mythos было найдено как минимум 11 новых уязвимостей. Что ж, соотношение "1 найденный / 11 не найденных" неплохое, конечно.

Что ж, Anthropic всеми силами пытаются разогнать слоповозку перед IPO.

Хочешь сказать что opus 4.7 это забракованный 5.0?

Признаки по большей части косвенные:
- У Opus 4.6 cutoff date это Май 2025, у Opus 4.7 - Январь 2026. Т.е. скорее всего обновили претрейн, что обычно делают для крупных релизов.
- Изменения в архитектуре. Как минимум новый токенизатор, работает побыстрее Opus 4.6 (во всяком случае, так говорят Artificial Analysis). Да и жесткие просадки на MRCR v2 (задача на удержание длинного контекста) наводят на ту же мысль
- Anthropic обычно выпускают крупные релизы примерно каждые 4-5 месяцев. Opus 4.5 был в конце ноября 2025, так что Opus 5.0 ожидался где-то между концом марта и концом апреля.
- Некоторые приросты на бенчмарках выглядят слишком уж большими для 4.6 -> 4.7 обновления (номера версий подразумевают, что это обновление итеративное, с приличными, но небольшими приростами). В некоторых бенчмарках (по типу HLE) ещё следы совсем уж наглого benchmaxxing-а, будто бы пытались всеми силами выжать цифру побольше.

В общем, есть определенные основания полагать, что они зафейлили создание Opus 5.0, а зафейленную модельку подали как Opus 4.7.

Да не выгодно им делать публичный Opus 5.0 который будет конкурировать с их взломщиком.

Взломщик - это Mythos? С одной стороны, допускаю, что Anthropic реально могут не выпускать Opus 5.0, как минимум ради поддержания хайпа вокруг Mythos. С другой стороны, тот же Opus 4.7 имеет все признаки того, что он должен был быть следующим большим релизом.

В общем, сложно тут.

А вырезать из него дорого и долго

Из Opus 4.7 вроде как повырезали всякое, а ведь он вышел спустя ~2.5 месяца после Opus 4.6. Т.е. не сказать, что прямо долго.

Так итоговый ответ от модели - это 2 страницы все-таки. 125 страниц - это выжимка из CoT модели, там может быть достаточно много нерелевантного.

Конкретно Альтману доверия мало, но о решении задач обычно сообщает не он, а сами математики в местах вроде erdosproblems.com, где они также общаются на форуме. 

Справедливости ради, часть математиков имеет вполне себе явный конфликт интересов, связанный с ИИ.

Не вчитывался в форум, но если правильно понимаю, они публично помогают другу, делятся частичными результатами, порой показывают промпты и цепочки рассуждений модели.

Которые, вероятнее всего, идут на обучение следующих моделей. Плохо ли это? На самом деле нет, если брать чисто практическую точку зрения. Но если так делают, то тогда стирается явная грань между "Модель решила задачу из-за того, что объективно поумнела" и "Модель решила задачу, потому что ей закидали тонны частичных результатов и потенциальных путей решений, сгенерированных при участии математиков".

Думаю, в таком формате было бы сложно создать большую подтасовку так, чтобы другие математики этого не заметили.

Проблема в том, что вариантов "подтасовки" тут достаточно много, даже если не брать "наняли левых математиков".

Ждем Gemini 3.5 Pro, если он будет очень хорош

Если честно, то веры в Гугл маловато. На бумаге модели у них хорошие, но вот на практике...

Anthropic и OpenAI придется что-то предпринимать в срочном порядке

Они, кажется, и так клепают релизы на предельной скорости. Это Гугл просто несколько вялый.

Вот выпустят opus 5 публично доступный, тогда будет прогрев перед IPO здорового человека.

Да вот есть подозрение, что не смогут они выпустить Opus 5.0 вовремя. Sonnet 5.0 жестко запаздывает (хотя его релиз смог бы серьезно так поменять ситуацию для Anthropic в лучшую сторону), Opus 4.7 (который, судя по всему, и должен был быть изначально Opus 5.0) тоже не предел мечтаний. Может, конечно, они ещё разгонятся, но пока что перспективы в этом плане не самые радужные. Возможно, потому и прибегают к прожиганию токенов.

Так в этом году новые модели постоянно задачи Эрдёша берут (счёт на десятки уже), а в прошлом году постоянно ни одной взять не могли.

Давайте будем честны - задачи Эрдёша сейчас превратились в бенчмарк, со всеми вытекающими. Заливать определенные проблемы синтетическими данными вполне реально, благо способности моделей позволяют их генерировать.

Когда недавно вышел GPT-5.5, с ним в первые же дни взяли целый ряд задач, который с 5.4 взять не получалось. Разница бросается в глаза.

Ну, с момента выхода GPT-5.4 в марте с задачами Эрдёша ничего не клеилось... Но потом в середине-конце апреля повалила куча результатов именно от GPT-5.4.

Так что либо мы чего-то не знаем о процессе работы с моделями, либо OpenAI знатно мутят воду с этими проблемами.

Поясню чуть подробнее. Сравните то, как написаны анонсы:
1) "Mythos показывает прорывные результаты в кибербезопасности, но при этом является моделью общего назначения" - "Внутренняя модель показывает прорывные результаты в математике, но при этом является моделью общего назначения"
2) "Mythos специально не обучали кибербезопасности, эти способности появились в результате повышения общего интеллекта модели" - "Мы не обучали внутреннюю модель ни под эту задачу в частности, ни специально под математику, вдобавок не использовали математический scaffolding".
3) Ну и зависимость успеха от количество вбуханных вычислений. Не факт, но возможно, что отсылка на Mythos и его стоимость.

В общем, наверное правильней было бы сказать "OpenAI жирно намекают, что они тоже уже сделали прорыв в способностях, сопоставимый с прорывом от Mythos". Вдобавок OpenAI через пару месяцев уже хотят на IPO выходить. Потому у меня остаётся знатный скептицизм на данный момент.

Ну, насчёт липкости я бы ещё подождал делать выводы. Попытки OpenAI раскрутить внутренние модели были, и заканчивались они так себе. Да и анонс сам по себе прямо кричит, что OpenAI получили модель уровня Mythos, а это тоже такой себе знак.

Ну пока у них не пулемёт

Более правильная аналогия: у них есть пистолет, который по рассказам может стрелять не хуже пулемета и даже создавать ядерные взрывы, но они не позволяют публике даже чуть-чуть потрогать этот пистолет из-за страха уничтожения мира, зато активно махают сделанными "доверенными людьми" фотографиями с якобы последствиями выстрелов. И всё это на фоне того, что их новейшие пистолеты, выпущенные в рамках двух самых популярных среди принадлежащих им публично продаваемых серий пистолетов, получились далеко не настолько хорошими, как ожидалось публикой.

В первом США сохраняют преимущество в вычислительных мощностях, нормы и правила вокруг ИИ задают демократии. Во втором Вашингтон бездействует, китайские лаборатории догоняют, и тогда, как формулирует Anthropic, лучшие модели обеспечивают "автоматизированную репрессию в глобальном масштабе".

Перевод: "Верьте в наши сказки про супер-секретные модели и вливайте гигатонны денег в нашу печку для долларов, а не то злой Китай!!!!!!"

Насколько резким бывает рывок, показывает свежий пример: после выхода Mythos Preview в апреле Mozilla закрыла в Firefox почти в 20 раз больше уязвимостей за месяц, чем в среднем в 2025-м.

Ну да-да, этот пример, конечно, полностью валидный и ни в коем случае не является унылым маркетингом для Anthropic. Ведь когда Mozilla спустя ~1.5 недели рвётся рассказывать о том, какой же крутой Mythos (при этом опуская важные детали и намеренно мутя воду), а другие и по сей день как-то подозрительно молчат (ну, как молчат... разработчик cURL в принципе поставил это всё под сомнение; результаты Palo Alto уже приличнее, но все равно даже не близко к Mozilla) - это вполне нормальная ситуация.

В общем, похоже на то, что Anthropic хочет, чтобы война хайпа вокруг них, поднятая в конце 2025, не стихала вплоть до их IPO, и не более того.

Так, я не понял. Apple же были в числе тех, кому дали ранний доступ к Mythos, и вообще, все популярные штуки были уже им отсканированы с нахождением газилионов уязвимостей. Как так получилось, что после этого сканирования в принципе что-то нашли с использованием Mythos, ещё и за 5 дней?

Попахивает знатным пиар-набросом, особенно если учесть, что хайповоз вокруг Mythos начал буксовать из-за серии недавних событий (выпуск GPT-5.5 с похожими способностями в кибербезопасности; фейл с cURL; не супер впечатляющие результаты от Palo Alto; ещё и Google с Microsoft - первые пока просто молчат, вторые вообще недавно попытались откреститься от Mythos).

Хм, а какой тут критерий "лучшей версии"? Более того, обычно все такие зацикливания заканчиваются мощнейшим слоповозом (с/м браузер от Cursor) и кучей потерянных токенов.

Так что на данный момент времени такая затея не выглядит рабочей.

Это хорошее и правильное замечание, но только вот:

  1. Mozilla пока что единственные, кто отчитался об огромном успехе. Остальные же на данный момент в основном молчат. Более того, характер постов от Mozilla (унылый хайповоз с минимумом важной информации) наталкивает на плачевные мысли.

  2. Это противоречит всему маркетингу Anthropic, где Mythos можно было использовать из коробки для взлома всего подряд.

  3. Mozilla на ранних этапах проводила небольшие эксперименты с Opus 4.6, что, как понимаю, позволило им найти в районе 30 (или даже больше?) уязвимостей. Это уже как минимум ставит вопрос о том, сколько уязвимостей нашел бы Opus 4.6 в правильной "обвязке" при масштабном сканировании кодовой базы. Имеющиеся результаты предполагают, что разница была бы не особо-то и велика (и это подтвердило бы изначальную мысль автора статьи). Факт того, что Mozilla упорно обходит стороной то, какой вклад вносят "другие ИИ модели", только ещё сильнее наталкивают на эту мысль.

В оригинальной статье написано:

These were absolutely not the last bugs to find or report. Just while I was writing the drafts for this blog post we have received more reports from security researchers about suspected problems.

Да, ситуация тут несколько сложнее.

Да, но всего год назад планка когда качество резко падало была 500 строк.

Справедливости ради, даже какой-нибудь Deepseek V3 в январе 2025 спокойно мог с первого раза выдавать рабочие (или почти рабочие) программы на 400-500 строк и работать с ними, без танцев с бубном. Возможно, тут зависит от сложности и специфики задачи (ну и от того, как подходить к подсчёту строк кода).

да и та ухудшилась из-за перегрузки серверов.

Честно говоря, это больше похоже на маркетинговый ход, нежели на реальную причину. Слишком уж странные действия от Anthropic и слишком уж подозрительное время, когда это началось.

На задачах по кибербезопасности модель решает 32% против 71% у GPT-5.5.

Странное сравнение. Китайцы в целом стали обращать внимания на способности моделей в кибербезопасности позже американских лабораторий. Конечно они будут отставать тут.

На абстрактном мышлении — 46% против 79%.

Да, на задачках из ARC-AGI-2. Напомню, даже создатели данного бенчмарка отмечали, что американские лаборатории как не в себя бенчмаксили свои модели под этот тест. Увы, это буквально ни о чем не говорит.

На агентском кодинге — 44% против 78%.

На неком PortBench, о котором публичной информации особо не наблюдается (как сказано в статье). Потому толку от этих процентов, мягко скажем, мало.

Ещё есть момент, что касается вообще всех этих замеров - они проводились при фиксированном бюджете токенов (то, что там бюджет сам по себе хитро устроен, опустим). Те же OpenAI последнее время активнейшим образом работают над тем, что модели расходовали как можно меньше токенов. У китайцев же наоборот - модели на данный любят кушать много токенов; показательный пример - SWE-rebench, где китайские модели долгое время отставали от американских, но потом авторы решили убрать лимиты, и китайцы резко почти сравнялись с американцами. И всё это на фоне того, что нехватка бюджета может очень жестко урезать итоговые результаты.

Проще говоря, DeepSeek тупо поставили в невыгодное положение, а затем гордо задекларировали, что он отстает.

Главный вывод этой истории

Реальный главный вывод: когда Anthropic втупую бенчмаксит Claude, а их заявленные результаты не воспроизводятся независимыми проверками (тот же HLE) - это нормально. Когда Gemini показывает конскую производительность на бенчмарках, но при этом дрейфует в большинстве реальных задач похлеще моделей-конкурентов - это нормально. Но стоит китайской модели не добрать 0.01% на "независимых" замерах...

В общем говоря, очень слабо верится, что эти замеры были проведены без намерений кинуть камень в огород китайцев.

Кроме Firefox пока никто не подтвердил

По моему мнению, куда интереснее будут даже не отчёты остальных, а то, начнут ли устраивать такой хайп-парад вокруг GPT-5.5 (который вроде как на уровне Mythos) или нет. Пока что наблюдается тотальная тишина.

Говорят, что это чертовски дорого и не очень то эффективно

Учитывая, что буквально все недавние анонсы от Anthropic построены на искусственном раздувании способностей моделей и что количество всяко разных менеджеров, готовых прокатиться на волне хайпа, огромно... Есть у меня подозрения, что ситуация с этими багами на деле куда проще.

Ну, если посмотреть на uptime этой инфраструктуры, то да, в целом маловато будет.

1
23 ...

Information

Rating
2,274-th
Registered
Activity