Так эээ, вам тоже никто не мешает "влить" в себя эти знания.
Ну-ка, поделитесь, как усвоить десятки терабайт текстовой информации?
А, мозга не хватает по обьему? Так ЛЛМке тоже не хватает
Если что, из коммерческих LLM вполне можно дословно вытягивать куски из их обучающей выборки. Увы, у них с объемом-то как раз проблем нет.
гениальная нейросеть с токеном раз в час никому не нужна особо.
Так и запишем, что GPT Pro, Gemini DeepThink и даже какой-нибудь там Claude Mythos совсем-совсем никому не нужны.
С чего бы general интеллекту быть сильно выше среднего человека?
С того, что так исторически сложилось? Впрочем, вы лучше задайте этот вопрос нейрохомякам и прочим ИИ-бустерам, у них AGI тоже не уровень среднего Васи вообще-то.
ОпкнАИ уже делали очень умную нейронку с 20 тысяч баксов за задачу ценой. В итоге так и не выпустили коммерцию, потому что за такую цену никому она не была нужна.
20 тысяч долларов за задачу - это только для ARC-AGI, и то потому, что OpenAI решили упороться в брутфорс и попереть против экспоненциально растущей цены ради пары процентов; для других задач цены озвучены не были. А не выпустили o3-preview (модель, о которой вы говорите) из-за того, что это был обыкновенный скам (привет тому же скандалу с FrontierMath).
И больше подобных попыток даже не делали, потому что есть предел готовности клиентов платить
Не делались? Те же OpenAI, Deepmind, xAI (как минимум) как раз предоставляют варианты своих моделей из категории "Очень умная модель, которая жрет кучу вычислений и стоит как не в себя". Реальность такова, что спрос на такие модели вполне себе есть.
Так давно перенесли ворота на уровень лучшего человека, а не на человека как должно быть
Так заявлять, что AGI должен быть на уровне среднего человека - это и есть тот самый перенос ворот в самом ярком его проявлении. От системы, в которую влили почти все имеющие знания человечества, явно ожидаешь не средний уровень производительности.
Ну и да, AGI все-таки изначально и задумывался как эксперт во всех (или хотя бы многих) областях.
Я не понимаю Ваши претензии к этим "завитушкам". Что с ними не так?
Эти завитушки выглядят так, будто сначала там был нормальный узор, но потом этот узор начал растекаться/съезжать вниз, в результате чего все выглядит как куча мала.
Вообще говоря, интересно, что отчет об уязвимостях показывает, что из всех багов, под которые выделили отдельные CVE, только 3 штуки были найдены непосредственно командой Anthropic, а это уже выглядит интересно. Для сотен же уязвимостей, найденных с помощью Mythos, описание звучит, конечно, интересно:
Memory safety bugs present in Firefox ESR 140.9, Thunderbird ESR 140.9, Firefox 149 and Thunderbird 149. Some of these bugs showed evidence of memory corruption and we presume that with enough effort some of these could have been exploited to run arbitrary code.
Признаю, я не эксперт, но лично для меня это звучит так, будто они "исправили" ложноположительные срабатывания, после чего гордо отчитались о тоннах обнаруженных уязвимостей
Да есть и не безумные придирки. Генерация всего, что стоит не на переднем плане, это рандом, спокойно можно получить покореженных уродцев (особенно если генерировать толпу, хотя у умельцев получается это даже с одиночными людьми/объектами); да, это справедливо для всех моделей, но в данном случае корежит совсем уж жестко. Шесть пальцев, летающие в воздухе обрубки рук - на месте. С обычным текстом проблем вроде как не наблюдается, но с всяко разными необычными шрифтами ситуация знатно так ухудшается (хотя, справедливости ради, тут нужно отдельно тестировать). Артефакты от исправлений картинки тоже часто заметны, варьируясь от "заметно, но некритично" до "жестко портит кусок изображения". Ну и на мультяшно-анимешных картинках встречается кислотно-слопный стиль рисовки (хотя тут вкусовщина).
Модель, конечно, по первым ощущениям лучше, но в некоторых местах проблем больше, чем с более старыми моделями
Чет разводилово какое-то - сравнивают еще не вышедшую модель с GPT-5.3, которая уже древняя и вообще не выходила кроме как в codex формате.
На скрине ещё присутствует GPT-4.1 - вот это действительно древняя модель, которую вставлять вообще смысла нет, так вдобавок цифры для неё вообще не выглядят правдоподобно (скорее всего, они правдой и не являются).
А если учесть, что, исходя из тенденций, Deepseek скоро и правда должны выкатить какие-то обновы, то этот слив выглядит как обычная угадайка с попыткой похайповать.
Первое — компьют: "стратегическая ошибка не запастись достаточными вычислительными мощностями»"якобы уже бьет по продукту через замедление ответов и нестабильную доступность.
Интересно такое слышать от тех, кто эти самые вычислительные мощности растрачивал (и растрачивает) впустую (привет всяким там Sora и прочим картинкогенераторам).
Второе — узость: кодинг дал Anthropic ранний рыночный плацдарм, но "не стоит быть однопродуктовой компанией в платформенной войне".
Так Сёма ж недавно рассказывал, что OpenAI тоже теперь не будет тратить мощности на всякий там слоп, а сосредоточится на конкретных продуктах.
И да, чего тога вы Sora закрыли-то? Надо же быть многопродуктовой компанией
Третье — риторика: в противовес "страху и ограничениям" OpenAI обещает "позитивное послание: строить мощные системы, ставить правильные защиты, расширять доступ и помогать людям делать больше".
Тем временем недавняя риторика от OpenAI: новость. Ни дня без того, чтобы соврать.
новая модель под кодовым именем Spud, которая должна стать "важным шагом в интеллектуальном фундаменте следующего поколения работы"
Вообще в свете нынешних событий про все эти "Spud" читать забавно. Сёма с компанией столько лет взращивали эту шизу про "секретные модели, которые таятся в глубинах лабораторий", думая, что они самые вумные манипуляторы-многоходовочники-кукловоды, которые таким образом смогут хитро управлять обществом, инвесторами и табунами нейрохомяков. А тут Anthropic взяли и своим типа-релизом Mythos хорошенько использовали эту самую шизу против самих OpenAI, нанеся последним мощнейший удар.
Но так, утекший меморандум выглядит как знатный залив копиума инвесторам и не более того.
Ну, как бы так сказать... На реддите выложили две части разбора системной карты. Судя по тому, как Anthropic мутят воду вокруг бенчмарков + один раз буквально обманули публику (с/м что в посте пишут про GraphWalks), есть подозрение, что Mythos - очередной фейл по типу GPT-4.5 (у Mythos, вероятно, есть значимые улучшения в каких-то задачах, но в общем случае всё уныло). Только вот Дарио у нас не Сёма Альтман, а потому вместо попытки продать инкрементальные улучшения как прорыв он решил за-benchmaxx-ить Mythos и разыграть карту "Слишком опасная модель, чтобы её выпускать"
Объяснение касательно чего? SWE-bench Multimodal? Ну уж простите, когда вы в анонсе говорите, что использовали "internal implementation" (подразумевая, что был использован совсем другой датасет, нежели тот, что использовался для лидерборда, и эти различия сильно влияют на итоговый результат), в то время как системная карта не только не дает никаких разъяснений касательно того, что же это за "реализация" такая, но и вдобавок дает такие описания, из которых можно сделать вывод, что различия между "вариантом теста, использованном в лидерборде" и "вариантом теста, использованном Anthropic" больше технические и почти не влияют на итоговый результат...
Нет, не особо. Выглядит как пересказ чуть менее, но всё-таки обсосаных моментов, причем с оттенком слопа. Для примера - буквально днем увидел этот анализ на реддите, там покрывается куда больше моментов.
💡GraphWalks – тест на работу с огромными структурами данных (256K–1M токенов). Я буквально недавно писал об этих ограничениях. Здесь Mythos обгоняет GPT-5.4 почти вчетверо. Для задач типа «разберись в большой кодовой базе» или «пройдись по базе знаний» – это прямо релевантно.
На этом бенчмарке в одной и той же категории: Mythos - 80%, Sonnet 4.6 - 73.8%. Скачок резко сдувается с "+41.3%" до "+6.2%" (только Mythos ещё в разы тяжелее, чем Sonnet 4.6). Просто вот немного забыли Anthropic прикрепить этот момент. Случайно, наверное.
SWE-bench Multimodal
Ну да, Opus 4.6 набирает 27.1%. А вот публичный лидерборд, где GPT-4o набирает 30.37%. Забавная картина. Ещё забавнее, что Anthropic пытаются объяснить эту ситуацию тем, что они использовали "внутреннюю реализацию" данного бенчмарка, а не ту, которую использует публичный лидерборд. Правда вот в системной карте, которую они прикрепили, нет никаких таких упоминаний; исходя из неё, они тестировали обе модели на самом обычном варианте SWE-bench Multimodal, только с небольшими техническими правками, которые на итоговой результат особо и не влияют. Более того, они знатно так намутили воды вокруг того, какой harness использовался при тестировании Opus 4.6 (видимо, очень и очень плохо работающий).
Чего не сделаешь ради раздувания результатов.
Решение не выпускать Mythos в паблик – не требование RSP. Это добровольное решение конкретно из-за кибер-возможностей.
Или же альтернативный вариант. Anthropic подфейлили с релизами Sonnet 4.6/Opus 4.6 (это хорошие модели, но публика ожидала явно больших улучшений), потому решили сделать крупную ставку и обучили Mythos. В итоге получили что-то типа GPT-4.5 - унылая, тяжелая модель с минимальными приростами (не считая, может, совсем отдельных задач). Но чтобы не оказаться совсем в заднице после этого, они решили её знатно от-benchmaxx-ить и выкатить под видом "Слишком дорогая и опасная модель, чтобы давать её публике". Учитывая все эти мутности с отчетами, звучит правдоподобно.
Это прямое продолжение серии Short Proofs: первый препринт с тремя задачами вышел меньше двух недель назад.
Прикрепили бы сюда Теренса Тао с его Гитхабом по поводу данных вопросов.
Но сейчас, когда проверили этот препринт, можно посмотреть, насколько соответствует действительности ваша новость о нём.
684 не была решена полностью, "внутренняя модель" получила только "Partial Results". Только вот, исходя из информации на Гитхабе, эти самые частичные результаты можно получить с использованием даже GPT-5.2 (при условии того, что к модели подсадят математика). Возможно, у внутренней модели более сильные частичные результаты, но это не уточняется.
741 тоже не была решена полностью, только частично.
997 - единственная, которая была решена полностью. Но тут найдены как минимум две работы, рассматривающие ту же самую проблему (хотя обе решают проблему только частично), на одну из этих работ модель точно опирается, исходя из Гитхаба.
Посмотрим, не случится ли такого же "скукоживания" с этими 5 задачами. Пока что выглядит так, будто знатно сдавшие по всем фронтам OpenAI пытаются унылым образом прохайповаться, чтобы не улететь в небытие.
Опус 4.6 вот тоже по бенчмаркам был значительно мощнее 4.5
Тут ещё проблема, что Anthropic в последнее время часто попадались на том, что их заявленные результаты на бенчмарках либо не воспроизводились совсем, либо воспроизводились очень-очень на тоненького (как минимум: HLE и SWE-Bench Multilingual для Opus 4.5/4.6), при условии того, что с остальными моделями в большинстве своем проблем не было. Так что очень уж интересно, насколько валидны замеры для Mythos.
Ну, 15% - это оценка от OpenAI, а они сами те ещё любители повводить в заблуждение. Epoch AI (которые тоже те ещё весельчаки, ну да ладно) дают оценку в 5-10%
А так, судя по отчету Anthropic и их попытке анализа утечки данных, эти 94% набрались чисто из-за запоминания примеров с бенчмарка (и да, OpenAI даже упоминали, что таким образом модель может научиться решать некорректные задачи).
Напоминание, которое уже стало чуть ли не ежедневным (куда катится качество статей на Хабре?): чем более шизофренически-величественные обещания дает Сёма&Co, тем хуже дела обстоят на деле. А так как, учитывая истинное лицо OpenAI, вероятность описанного в статье сценария равна примерно нулю, то дела у них, видимо, обстоят совсем уж плачевно.
И зачем я спорю с ИИ агентом, у которого в промпте написано - хейтить про ИИ.
Хм, а с каких пор "Обоснованная критика всякой дичи, которую прогоняют ИИ-бустеры" это у нас "Хейт ИИ"?
На текущий момент бенчмарки - это расходники, они создаются как часть эксперимента, как способ нащупать еще один вектор развития
Особенно бенчмарк с рисованием пеликанов или всяких там часов при помощи SVG графики. Хорошо, что такую дичь в официальные анонсы не добавляют... Хотя нет, ARC-AGI все-таки просочился, но не суть.
их создают с околонулевым процентом прохождения
Такой цели (околонулевое прохождение) почти никогда не ставится, только если мы не говорим про унылый пиар.
тюнят новые модели или обновляют агента до тех пор пока применимость этого бенчмарка теряет смысл, и выбрасывают... это нормально,..
Надо внятно обосновывать, почему бенчмарк больше неактуален. А какие обоснования у OpenAI? В бенчмарке есть задачи, у которых тесты содержат ошибки в дизайне? Так у OpenAI такие критерии, что даже абсолютно нормальная и корректная задача может попасть в категорию "задачи с проблемами в дизайне" (для сомневающихся: откройте отчет от Epoch AI по данному бенчмарку и посмотрите на задачу, которая упомянута в сноске 2. По критериям OpenAI, у неё некорректные тесты, хотя очевидно, что с ними там всё в порядке). Бенчмарк много раз утекал в обучающую выборку? Это уже лицемерие.
Здравые, никто не спорит. Только вот эти проблемы были описаны ещё так в середине 2025 года (почитайте тот же отчет по SWE Bench Verified от Epoch AI или эту статью). И OpenAI как-то это всё не особо волновало. Зато когда проценты перестали расти конскими темпами, да Anthropic с Deepmind начали обгонять - так мгновенно выяснилось, что бенчмарк плохой и неправильный.
А ещё статья не обошлась без классических попыток ввести в заблуждение. Статья очень сильно подводит к тому, что проблемы с тестами сильно снижают итоговый результат, но не проводит анализ того, какая была бы производительность, если бы тесты были исправлены. Нам говорят, что некоторые задачи из-за проблем с тестами "очень сложны для решения", но при этом не отвечают прямо на вопрос, являются ли эти "сложные задачи" некорректными или нет. Зато вместо ясного ответа мы имеем откровенные манипуляции с попыткой внушить читателю мысль, что все эти "сложные задачи" и правда являются некорректными.
В общем, статья выглядит как максимально унылая попытка избавиться от неудобного бенчмарка.
OpenAI пожертвовала смешными видео ради ИИ-науки: Альтман объяснил, куда ушли мощности Sora
А вы помните, как OpenAI и нейрохомяки в унисон пели, что Sora - это вам не какой-то там предсказатель следующего кадра, а самый настоящий симулятор моделей мира? И что симуляции эти пойдут на обучение ИИ/исправление галлюцинаций/создание AGI и прочее, в то время как видео являются так, побочным продуктом, который можно из этих самых симуляций получить?
А вы помните, когда говорили, что нет смысла тратиться на Sora, если эти ваши AGI и прочие сверхинтеллекты уже рядом, то сразу набегали табуны нейрохомяков и рассказывали, что Sora будет источников заработка денег, которые пойдут на дальнейшие исследования?
Ну, вы поняли
По его словам, все вычислительные мощности перенаправлены на создание нового поколения автоматизированных ИИ-исследователей, которые, как он считает, смогут сжать десятилетие научных открытий в один год.
Всегда помним про правило: чем более грандиозные обещание выдает Сёмка, тем хуже дела OpenAI обстоят на самом деле.
А так, забавно смотреть, как нам пытаются втюхать, что этот провал - не провал вовсе, а гроссмейстерская игра в 4D шахматы и невообразимая многоходовочка. К слову, мб тогда и генератор картинок стоит закрыть? А то ведь тоже жрет много, да без особого толку. Или там другое и "понимать надо"?
В том же интервью Альтман описал близкое будущее, в котором автоматизированные ИИ-исследователи фундаментально перестроят науку.
Лучше бы описал будущее, где модели от OpenAI закрывают на 100% SWE-Bench Verified. Хотя да, этот бенчмарк оказался им немного не по зубам, так что OpenAI объявили его "плАхим" и тупо слились... Но с намного более сложной задачей OpenAI справятся, верим.
Сооснователь и президент OpenAI Грег Брокман заявил, что компания прошла 70-80% пути к созданию сильного искусственного интеллекта (AGI) и рассчитывает достичь его "в ближайшую пару лет".
Всегда помним правило: чем более грандиозные заявления делают OpenAI, тем хуже дела обстоят на самом деле.
Во-первых, новая базовая модель под кодовым названием Spud, объединяющая два года работы над предварительным обучением
Так-так, а ещё в ноябре-декабря всякие нейрохомяки и прочие "сбежавшие нейросети", транслируя "утекшие" записки, рассказывали нам, что OpenAI уже сделали модели, в которые вложили все свои наработки по претрейну. Закончились, правда, эти рассказы далеко не тем, чем ожидалось, но это детали.
Ну-ка, поделитесь, как усвоить десятки терабайт текстовой информации?
Если что, из коммерческих LLM вполне можно дословно вытягивать куски из их обучающей выборки. Увы, у них с объемом-то как раз проблем нет.
Так и запишем, что GPT Pro, Gemini DeepThink и даже какой-нибудь там Claude Mythos совсем-совсем никому не нужны.
С того, что так исторически сложилось? Впрочем, вы лучше задайте этот вопрос нейрохомякам и прочим ИИ-бустерам, у них AGI тоже не уровень среднего Васи вообще-то.
20 тысяч долларов за задачу - это только для ARC-AGI, и то потому, что OpenAI решили упороться в брутфорс и попереть против экспоненциально растущей цены ради пары процентов; для других задач цены озвучены не были. А не выпустили o3-preview (модель, о которой вы говорите) из-за того, что это был обыкновенный скам (привет тому же скандалу с FrontierMath).
Не делались? Те же OpenAI, Deepmind, xAI (как минимум) как раз предоставляют варианты своих моделей из категории "Очень умная модель, которая жрет кучу вычислений и стоит как не в себя". Реальность такова, что спрос на такие модели вполне себе есть.
Так заявлять, что AGI должен быть на уровне среднего человека - это и есть тот самый перенос ворот в самом ярком его проявлении. От системы, в которую влили почти все имеющие знания человечества, явно ожидаешь не средний уровень производительности.
Ну и да, AGI все-таки изначально и задумывался как эксперт во всех (или хотя бы многих) областях.
Эти завитушки выглядят так, будто сначала там был нормальный узор, но потом этот узор начал растекаться/съезжать вниз, в результате чего все выглядит как куча мала.
Вообще говоря, интересно, что отчет об уязвимостях показывает, что из всех багов, под которые выделили отдельные CVE, только 3 штуки были найдены непосредственно командой Anthropic, а это уже выглядит интересно. Для сотен же уязвимостей, найденных с помощью Mythos, описание звучит, конечно, интересно:
Признаю, я не эксперт, но лично для меня это звучит так, будто они "исправили" ложноположительные срабатывания, после чего гордо отчитались о тоннах обнаруженных уязвимостей
Да есть и не безумные придирки. Генерация всего, что стоит не на переднем плане, это рандом, спокойно можно получить покореженных уродцев (особенно если генерировать толпу, хотя у умельцев получается это даже с одиночными людьми/объектами); да, это справедливо для всех моделей, но в данном случае корежит совсем уж жестко. Шесть пальцев, летающие в воздухе обрубки рук - на месте. С обычным текстом проблем вроде как не наблюдается, но с всяко разными необычными шрифтами ситуация знатно так ухудшается (хотя, справедливости ради, тут нужно отдельно тестировать). Артефакты от исправлений картинки тоже часто заметны, варьируясь от "заметно, но некритично" до "жестко портит кусок изображения". Ну и на мультяшно-анимешных картинках встречается кислотно-слопный стиль рисовки (хотя тут вкусовщина).
Модель, конечно, по первым ощущениям лучше, но в некоторых местах проблем больше, чем с более старыми моделями
На скрине ещё присутствует GPT-4.1 - вот это действительно древняя модель, которую вставлять вообще смысла нет, так вдобавок цифры для неё вообще не выглядят правдоподобно (скорее всего, они правдой и не являются).
А если учесть, что, исходя из тенденций, Deepseek скоро и правда должны выкатить какие-то обновы, то этот слив выглядит как обычная угадайка с попыткой похайповать.
Интересно такое слышать от тех, кто эти самые вычислительные мощности растрачивал (и растрачивает) впустую (привет всяким там Sora и прочим картинкогенераторам).
Так Сёма ж недавно рассказывал, что OpenAI тоже теперь не будет тратить мощности на всякий там слоп, а сосредоточится на конкретных продуктах.
И да, чего тога вы Sora закрыли-то? Надо же быть многопродуктовой компанией
Тем временем недавняя риторика от OpenAI: новость. Ни дня без того, чтобы соврать.
Вообще в свете нынешних событий про все эти "Spud" читать забавно. Сёма с компанией столько лет взращивали эту шизу про "секретные модели, которые таятся в глубинах лабораторий", думая, что они самые вумные манипуляторы-многоходовочники-кукловоды, которые таким образом смогут хитро управлять обществом, инвесторами и табунами нейрохомяков. А тут Anthropic взяли и своим типа-релизом Mythos хорошенько использовали эту самую шизу против самих OpenAI, нанеся последним мощнейший удар.
Но так, утекший меморандум выглядит как знатный залив копиума инвесторам и не более того.
Ну, как бы так сказать... На реддите выложили две части разбора системной карты. Судя по тому, как Anthropic мутят воду вокруг бенчмарков + один раз буквально обманули публику (с/м что в посте пишут про GraphWalks), есть подозрение, что Mythos - очередной фейл по типу GPT-4.5 (у Mythos, вероятно, есть значимые улучшения в каких-то задачах, но в общем случае всё уныло). Только вот Дарио у нас не Сёма Альтман, а потому вместо попытки продать инкрементальные улучшения как прорыв он решил за-benchmaxx-ить Mythos и разыграть карту "Слишком опасная модель, чтобы её выпускать"
Объяснение касательно чего? SWE-bench Multimodal? Ну уж простите, когда вы в анонсе говорите, что использовали "internal implementation" (подразумевая, что был использован совсем другой датасет, нежели тот, что использовался для лидерборда, и эти различия сильно влияют на итоговый результат), в то время как системная карта не только не дает никаких разъяснений касательно того, что же это за "реализация" такая, но и вдобавок дает такие описания, из которых можно сделать вывод, что различия между "вариантом теста, использованном в лидерборде" и "вариантом теста, использованном Anthropic" больше технические и почти не влияют на итоговый результат...
Уж простите, чувствуется знатный запах обмана.
Нет, не особо. Выглядит как пересказ чуть менее, но всё-таки обсосаных моментов, причем с оттенком слопа. Для примера - буквально днем увидел этот анализ на реддите, там покрывается куда больше моментов.
На этом бенчмарке в одной и той же категории: Mythos - 80%, Sonnet 4.6 - 73.8%. Скачок резко сдувается с "+41.3%" до "+6.2%" (только Mythos ещё в разы тяжелее, чем Sonnet 4.6). Просто вот немного забыли Anthropic прикрепить этот момент. Случайно, наверное.
Ну да, Opus 4.6 набирает 27.1%. А вот публичный лидерборд, где GPT-4o набирает 30.37%. Забавная картина. Ещё забавнее, что Anthropic пытаются объяснить эту ситуацию тем, что они использовали "внутреннюю реализацию" данного бенчмарка, а не ту, которую использует публичный лидерборд. Правда вот в системной карте, которую они прикрепили, нет никаких таких упоминаний; исходя из неё, они тестировали обе модели на самом обычном варианте SWE-bench Multimodal, только с небольшими техническими правками, которые на итоговой результат особо и не влияют. Более того, они знатно так намутили воды вокруг того, какой harness использовался при тестировании Opus 4.6 (видимо, очень и очень плохо работающий).
Чего не сделаешь ради раздувания результатов.
Или же альтернативный вариант. Anthropic подфейлили с релизами Sonnet 4.6/Opus 4.6 (это хорошие модели, но публика ожидала явно больших улучшений), потому решили сделать крупную ставку и обучили Mythos. В итоге получили что-то типа GPT-4.5 - унылая, тяжелая модель с минимальными приростами (не считая, может, совсем отдельных задач). Но чтобы не оказаться совсем в заднице после этого, они решили её знатно от-benchmaxx-ить и выкатить под видом "Слишком дорогая и опасная модель, чтобы давать её публике". Учитывая все эти мутности с отчетами, звучит правдоподобно.
Прикрепили бы сюда Теренса Тао с его Гитхабом по поводу данных вопросов.
Но сейчас, когда проверили этот препринт, можно посмотреть, насколько соответствует действительности ваша новость о нём.
684 не была решена полностью, "внутренняя модель" получила только "Partial Results". Только вот, исходя из информации на Гитхабе, эти самые частичные результаты можно получить с использованием даже GPT-5.2 (при условии того, что к модели подсадят математика). Возможно, у внутренней модели более сильные частичные результаты, но это не уточняется.
741 тоже не была решена полностью, только частично.
997 - единственная, которая была решена полностью. Но тут найдены как минимум две работы, рассматривающие ту же самую проблему (хотя обе решают проблему только частично), на одну из этих работ модель точно опирается, исходя из Гитхаба.
Посмотрим, не случится ли такого же "скукоживания" с этими 5 задачами. Пока что выглядит так, будто знатно сдавшие по всем фронтам OpenAI пытаются унылым образом прохайповаться, чтобы не улететь в небытие.
Тут ещё проблема, что Anthropic в последнее время часто попадались на том, что их заявленные результаты на бенчмарках либо не воспроизводились совсем, либо воспроизводились очень-очень на тоненького (как минимум: HLE и SWE-Bench Multilingual для Opus 4.5/4.6), при условии того, что с остальными моделями в большинстве своем проблем не было. Так что очень уж интересно, насколько валидны замеры для Mythos.
Ну, 15% - это оценка от OpenAI, а они сами те ещё любители повводить в заблуждение. Epoch AI (которые тоже те ещё весельчаки, ну да ладно) дают оценку в 5-10%
А так, судя по отчету Anthropic и их попытке анализа утечки данных, эти 94% набрались чисто из-за запоминания примеров с бенчмарка (и да, OpenAI даже упоминали, что таким образом модель может научиться решать некорректные задачи).
Напоминание, которое уже стало чуть ли не ежедневным (куда катится качество статей на Хабре?): чем более шизофренически-величественные обещания дает Сёма&Co, тем хуже дела обстоят на деле. А так как, учитывая истинное лицо OpenAI, вероятность описанного в статье сценария равна примерно нулю, то дела у них, видимо, обстоят совсем уж плачевно.
Хм, а с каких пор "Обоснованная критика всякой дичи, которую прогоняют ИИ-бустеры" это у нас "Хейт ИИ"?
Особенно бенчмарк с рисованием пеликанов или всяких там часов при помощи SVG графики. Хорошо, что такую дичь в официальные анонсы не добавляют... Хотя нет, ARC-AGI все-таки просочился, но не суть.
Такой цели (околонулевое прохождение) почти никогда не ставится, только если мы не говорим про унылый пиар.
Надо внятно обосновывать, почему бенчмарк больше неактуален. А какие обоснования у OpenAI? В бенчмарке есть задачи, у которых тесты содержат ошибки в дизайне? Так у OpenAI такие критерии, что даже абсолютно нормальная и корректная задача может попасть в категорию "задачи с проблемами в дизайне" (для сомневающихся: откройте отчет от Epoch AI по данному бенчмарку и посмотрите на задачу, которая упомянута в сноске 2. По критериям OpenAI, у неё некорректные тесты, хотя очевидно, что с ними там всё в порядке). Бенчмарк много раз утекал в обучающую выборку? Это уже лицемерие.
Это уже четвертое предсказание от них за последние пять месяцев. Плохие там источники, конечно.
Здравые, никто не спорит. Только вот эти проблемы были описаны ещё так в середине 2025 года (почитайте тот же отчет по SWE Bench Verified от Epoch AI или эту статью). И OpenAI как-то это всё не особо волновало. Зато когда проценты перестали расти конскими темпами, да Anthropic с Deepmind начали обгонять - так мгновенно выяснилось, что бенчмарк плохой и неправильный.
А ещё статья не обошлась без классических попыток ввести в заблуждение. Статья очень сильно подводит к тому, что проблемы с тестами сильно снижают итоговый результат, но не проводит анализ того, какая была бы производительность, если бы тесты были исправлены. Нам говорят, что некоторые задачи из-за проблем с тестами "очень сложны для решения", но при этом не отвечают прямо на вопрос, являются ли эти "сложные задачи" некорректными или нет. Зато вместо ясного ответа мы имеем откровенные манипуляции с попыткой внушить читателю мысль, что все эти "сложные задачи" и правда являются некорректными.
В общем, статья выглядит как максимально унылая попытка избавиться от неудобного бенчмарка.
А вы помните, как OpenAI и нейрохомяки в унисон пели, что Sora - это вам не какой-то там предсказатель следующего кадра, а самый настоящий симулятор моделей мира? И что симуляции эти пойдут на обучение ИИ/исправление галлюцинаций/создание AGI и прочее, в то время как видео являются так, побочным продуктом, который можно из этих самых симуляций получить?
А вы помните, когда говорили, что нет смысла тратиться на Sora, если эти ваши AGI и прочие сверхинтеллекты уже рядом, то сразу набегали табуны нейрохомяков и рассказывали, что Sora будет источников заработка денег, которые пойдут на дальнейшие исследования?
Ну, вы поняли
Всегда помним про правило: чем более грандиозные обещание выдает Сёмка, тем хуже дела OpenAI обстоят на самом деле.
А так, забавно смотреть, как нам пытаются втюхать, что этот провал - не провал вовсе, а гроссмейстерская игра в 4D шахматы и невообразимая многоходовочка. К слову, мб тогда и генератор картинок стоит закрыть? А то ведь тоже жрет много, да без особого толку. Или там другое и "понимать надо"?
Лучше бы описал будущее, где модели от OpenAI закрывают на 100% SWE-Bench Verified. Хотя да, этот бенчмарк оказался им немного не по зубам, так что OpenAI объявили его "плАхим" и тупо слились... Но с намного более сложной задачей OpenAI справятся, верим.
Всегда помним правило: чем более грандиозные заявления делают OpenAI, тем хуже дела обстоят на самом деле.
Так-так, а ещё в ноябре-декабря всякие нейрохомяки и прочие "сбежавшие нейросети", транслируя "утекшие" записки, рассказывали нам, что OpenAI уже сделали модели, в которые вложили все свои наработки по претрейну. Закончились, правда, эти рассказы далеко не тем, чем ожидалось, но это детали.