Comments / Profile of ArZr / Habr

@ArZr

User

0,1

Rating

Subscribers

ProfileArticlesPostsNewsComments209

GPT-5.6 Sol в режиме Ultra случайно стёрла все файлы пользователя на Mac, а потом сама призналась в ошибке

ArZr Jul 11 at 19:20

Либо же дело в том, что Anthropic очень сильно испугались релиза GPT-5.6 и решили проплатить астротурфинг на тему того, что GPT-5.6 вообще тупой и сильно уступает Fable 5. Как-то уж многовато подобного формата историй и в целом странного негатива в отношении GPT-5.6 всплыло за последние два дня (хотя, может, это мне только кажется).

ИИ-советник Трампа: проблема не в Fable 5, а в упрямстве Anthropic

ArZr Jun 17 at 20:35

Так Anthropic уже который год на публику кричат про необходимость регулирования злого и опасного ИИ, при этом выставляя себя хорошими парнями, которые вкладывают колоссальные силы в ИИ-безопасность. Думали, что регулирование навставляет палки в колеса конкурентов и обойдет самих Anthropic, но реальность оказалась такой, какой оказалась.

«Амодеи отказался исправить Claude Fable 5»: в Белом доме объяснили блокировку мощнейшей модели Anthropic

ArZr Jun 13 at 20:11

Проблема в том, что именно Anthropic сильнее всех проталкивали тему того, что ИИ невероятно страшен и опасен (сам по себе или в неправильных руках), и выставляли себя этакой организацией, которая этими самыми катастрофическими рисками очень озабочена. Кажется, что реальные намерения здесь крайне очевидные.

+23

️ Anthropic готовится представить коммерческую версию Mythos

ArZr Jun 9 at 13:42

Тут весь источник - какие-то мутные типа "сливы". Потому что есть, что нет - разница отсутствует.

Mythos все-таки стала инструментом для наступательных киберопераций США

ArZr Jun 6 at 18:08

Вы хотя бы статью почитали перед публикацией. Единственная релевантная информация:

The San Francisco-based company had installed about half a dozen staff within the NSA as so-called forward-deployed engineers to guide the use of the technology and customise models for specific applications, two people familiar with the arrangement said.
It remains unclear whether Anthropic’s engineers are assisting the NSA in active operations. However, one person close to the situation said Mythos would be useful for infiltrating the networks of nations such as China or Iran.

Проще говоря, вся новость основывается на очень мутных словах какой-то мутной личности. Выглядит как унылый пиар, нежели что-то интересное.

Claude пишет 80% кода Anthropic — люди уже не успевают проверять

ArZr Jun 5 at 01:06

Где здесь проблема инфраструктуры и экспоненциального роста, а где следствие некачественного кода написанного нейронкой?

Ну да, это точно не проблема некачественного кода. Ведь продукты от Anthropic славятся своим полным отсутствием багов, никто из пользователей не жалуется на различные поломки приложений от них, а количество issue у Claude Code близко к нулю. Или же всё-таки нет?

Claude Mythos скоро выйдет для всех: что это значит для кибербезопасности

ArZr May 29 at 18:36

Ну факты в Firefox

А кто есть кроме них? В то время как на стороне скептиков имеются примеры cURL (почти ноль результатов), Palo Alto Networks (результаты хорошие, но там использовался не только Mythos; вклад ИИ в целом описан мутно; кол-во найденных уязвимостей тоже не самое большое), WolfSSL (неплохой вклад от Mythos, но далеко не настолько огромный, как в других проектах). В качестве примера "фактов" можно добавить Cloudflare и Google, но с ними тоже не все до конца понятно

там возможно не Mythos, а другие модели, но дела это не меняет

Если модели открытые, то дела как раз очень и очень сильно меняются.

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

ArZr May 28 at 22:28

Написано мол это будет mythos-class models, то есть не сама мифос, а какая-то облегченная версия что-ли

Разгадка тут куда проще, как мне кажется. Opus 4.8 уже по многим бенчмаркам находится на уровне (а иногда даже превосходит) Mythos; там же, где Opus хуже, отставание в большинстве случаев составляет порядка 3-5%.

Вероятнее всего, Anthropic забенчмаксит Opus 4.8 на эти самые проценты и через месяц-два выкатит какой-нибудь Opus 4.9/5.0, провозгласит его "Mythos-level model", и на этом всё. В другой сценарий верится слабо.

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

ArZr May 28 at 19:12

У Anthropic сейчас есть задачи поважнее: бенчмаксить модельки перед IPO. А на простых пользователей всем как обычно....

Mythos обнаружила 23 тысячи уязвимостей в 1 тысяче проектов с открытым исходным кодом

ArZr May 27 at 16:45

Из этого числа около 1,9 тыс. выявили сторонние компании в сфере кибербезопасности, свыше 1,7 тыс. были подтверждены, в том числе более 1 тыс. получили оценку высокой или критической степени серьёзности.

Эти результаты всё ещё находятся на стадии проверки. По оценкам Anthropic, на основании только текущих данных будет подтверждено около 3,9 тыс. критических и серьёзных уязвимостей. Поскольку сканирование продолжается, компания полагает, что число серьёзных уязвимостей может вырасти до 6,2 тыс.

Перевод, конечно, переврал все, что только можно переврать. Оригинальная статья говорит о том, что было найдено 23 тысячи потенциальных уязвимостей, из них 6202 имеют высокий или критический уровень. Из этих 6202 выбрали 1752 уязвимости и проверили вручную (самостоятельно или с помощью сторонних компаний, занимающихся кибербезопасностью). Получили, что 9.8% из них являются false positive, а среди остальных только у 62.4% правильно присвоен уровень серьезности. Отсюда сделали вывод, что, исходя из этой оценки, на момент написания статьи было найдено 6202 x 0.624 = 3870 уязвимостей высокого или критического уровня.

Да, у них там картинка с текстом не совсем стыкуются (отсюда, возможно, и ошибки перевода), но все равно не понимаю, как можно было так смысл вывернуть.

Mythos нашел 10 000 уязвимостей за месяц — open-source мейнтейнеры не успевают чинить

ArZr May 23 at 11:38

За месяц около 50 партнеров нашли более 10 000 багов высокой и критической степени в критическом софте

Просто напомню, что партнёры для поиска уязвимостей использовали почти все доступные модели. Как минимум Cloudflare, Palo Alto Networks, Microsoft и Oracle говорят об этом напрямую. Забавно получается, что 10000 уязвимостей - это результат совместной работы разных моделей (и, вероятно, не-ИИ методов), но нахождение всех этих уязвимостей пытаются приписать Mythos.

К слову, Palo Alto Networks нашли за месяц только 4 уязвимости высокой или критической степеней. В том же wolfSSL Mythos откопал 8 уязвимостей (супротив 14, о которых сообщили другие источники в тот же период времени). В случае cURL вообще печаль. Зато неназванные "партнёры" нашли сотни всяких серьезных уязвимостей. Это как?

еще 6202 — в open-source-проектах.

Во-первых, 6202 уязвимости нашли не за один, а за несколько месяцев. Во-вторых, просканировали "больше 1000 проектов" (в нашем случае это может значить что угодно, хоть 1500, хоть 2000 и т.д.). Т.е. это ~6.2 уязвимостей критической или высокой степени на проект (и это хорошо, если среди отсканированных не было слоповозов по типу OpenClaw). Где же "сотни критических уязвимостей"? Почему только "партнёры" (и то не все) находят такие конские количества?

Скепсис к самому Mythos в сообществе тоже есть. Две недели назад Дэниел Стенберг, лид и основной разработчик curl, опубликовал разбор работы модели на их коде: из пяти "подтвержденных уязвимостей" после проверки осталась одна, низкого уровня важности. Стенберг сформулировал прямо: "хайп вокруг этой модели в основном маркетинговый".

При этом после сканирования от Mythos было найдено как минимум 11 новых уязвимостей. Что ж, соотношение "1 найденный / 11 не найденных" неплохое, конечно.

Что ж, Anthropic всеми силами пытаются разогнать слоповозку перед IPO.

Как устроен продуктовый менеджмент в Anthropic

ArZr May 21 at 20:35

Хочешь сказать что opus 4.7 это забракованный 5.0?

Признаки по большей части косвенные:
- У Opus 4.6 cutoff date это Май 2025, у Opus 4.7 - Январь 2026. Т.е. скорее всего обновили претрейн, что обычно делают для крупных релизов.
- Изменения в архитектуре. Как минимум новый токенизатор, работает побыстрее Opus 4.6 (во всяком случае, так говорят Artificial Analysis). Да и жесткие просадки на MRCR v2 (задача на удержание длинного контекста) наводят на ту же мысль
- Anthropic обычно выпускают крупные релизы примерно каждые 4-5 месяцев. Opus 4.5 был в конце ноября 2025, так что Opus 5.0 ожидался где-то между концом марта и концом апреля.
- Некоторые приросты на бенчмарках выглядят слишком уж большими для 4.6 -> 4.7 обновления (номера версий подразумевают, что это обновление итеративное, с приличными, но небольшими приростами). В некоторых бенчмарках (по типу HLE) ещё следы совсем уж наглого benchmaxxing-а, будто бы пытались всеми силами выжать цифру побольше.

В общем, есть определенные основания полагать, что они зафейлили создание Opus 5.0, а зафейленную модельку подали как Opus 4.7.

Как устроен продуктовый менеджмент в Anthropic

ArZr May 21 at 18:33

Да не выгодно им делать публичный Opus 5.0 который будет конкурировать с их взломщиком.

Взломщик - это Mythos? С одной стороны, допускаю, что Anthropic реально могут не выпускать Opus 5.0, как минимум ради поддержания хайпа вокруг Mythos. С другой стороны, тот же Opus 4.7 имеет все признаки того, что он должен был быть следующим большим релизом.

В общем, сложно тут.

А вырезать из него дорого и долго

Из Opus 4.7 вроде как повырезали всякое, а ведь он вышел спустя ~2.5 месяца после Opus 4.6. Т.е. не сказать, что прямо долго.

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

ArZr May 21 at 11:42

Так итоговый ответ от модели - это 2 страницы все-таки. 125 страниц - это выжимка из CoT модели, там может быть достаточно много нерелевантного.

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

ArZr May 21 at 11:32

Конкретно Альтману доверия мало, но о решении задач обычно сообщает не он, а сами математики в местах вроде erdosproblems.com, где они также общаются на форуме.

Справедливости ради, часть математиков имеет вполне себе явный конфликт интересов, связанный с ИИ.

Не вчитывался в форум, но если правильно понимаю, они публично помогают другу, делятся частичными результатами, порой показывают промпты и цепочки рассуждений модели.

Которые, вероятнее всего, идут на обучение следующих моделей. Плохо ли это? На самом деле нет, если брать чисто практическую точку зрения. Но если так делают, то тогда стирается явная грань между "Модель решила задачу из-за того, что объективно поумнела" и "Модель решила задачу, потому что ей закидали тонны частичных результатов и потенциальных путей решений, сгенерированных при участии математиков".

Думаю, в таком формате было бы сложно создать большую подтасовку так, чтобы другие математики этого не заметили.

Проблема в том, что вариантов "подтасовки" тут достаточно много, даже если не брать "наняли левых математиков".

Как устроен продуктовый менеджмент в Anthropic

ArZr May 21 at 08:34

Ждем Gemini 3.5 Pro, если он будет очень хорош

Если честно, то веры в Гугл маловато. На бумаге модели у них хорошие, но вот на практике...

Anthropic и OpenAI придется что-то предпринимать в срочном порядке

Они, кажется, и так клепают релизы на предельной скорости. Это Гугл просто несколько вялый.

Как устроен продуктовый менеджмент в Anthropic

ArZr May 21 at 08:10

Вот выпустят opus 5 публично доступный, тогда будет прогрев перед IPO здорового человека.

Да вот есть подозрение, что не смогут они выпустить Opus 5.0 вовремя. Sonnet 5.0 жестко запаздывает (хотя его релиз смог бы серьезно так поменять ситуацию для Anthropic в лучшую сторону), Opus 4.7 (который, судя по всему, и должен был быть изначально Opus 5.0) тоже не предел мечтаний. Может, конечно, они ещё разгонятся, но пока что перспективы в этом плане не самые радужные. Возможно, потому и прибегают к прожиганию токенов.

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

ArZr May 21 at 00:48

Так в этом году новые модели постоянно задачи Эрдёша берут (счёт на десятки уже), а в прошлом году постоянно ни одной взять не могли.

Давайте будем честны - задачи Эрдёша сейчас превратились в бенчмарк, со всеми вытекающими. Заливать определенные проблемы синтетическими данными вполне реально, благо способности моделей позволяют их генерировать.

Когда недавно вышел GPT-5.5, с ним в первые же дни взяли целый ряд задач, который с 5.4 взять не получалось. Разница бросается в глаза.

Ну, с момента выхода GPT-5.4 в марте с задачами Эрдёша ничего не клеилось... Но потом в середине-конце апреля повалила куча результатов именно от GPT-5.4.

Так что либо мы чего-то не знаем о процессе работы с моделями, либо OpenAI знатно мутят воду с этими проблемами.

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

ArZr May 21 at 00:42

Поясню чуть подробнее. Сравните то, как написаны анонсы:
1) "Mythos показывает прорывные результаты в кибербезопасности, но при этом является моделью общего назначения" - "Внутренняя модель показывает прорывные результаты в математике, но при этом является моделью общего назначения"
2) "Mythos специально не обучали кибербезопасности, эти способности появились в результате повышения общего интеллекта модели" - "Мы не обучали внутреннюю модель ни под эту задачу в частности, ни специально под математику, вдобавок не использовали математический scaffolding".
3) Ну и зависимость успеха от количество вбуханных вычислений. Не факт, но возможно, что отсылка на Mythos и его стоимость.

В общем, наверное правильней было бы сказать "OpenAI жирно намекают, что они тоже уже сделали прорыв в способностях, сопоставимый с прорывом от Mythos". Вдобавок OpenAI через пару месяцев уже хотят на IPO выходить. Потому у меня остаётся знатный скептицизм на данный момент.

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

ArZr May 20 at 23:08

Ну, насчёт липкости я бы ещё подождал делать выводы. Попытки OpenAI раскрутить внутренние модели были, и заканчивались они так себе. Да и анонс сам по себе прямо кричит, что OpenAI получили модель уровня Mythos, а это тоже такой себе знак.

2 3 ...

10 11