Такое сравнение, кажется, некорректно. Могу ошибаться, но: - TCC включает в себя не только непосредственно компилятор. - TCC имеет фичи, которые не являются необходимыми для сборки ядра Linux - Anthropic ставили перед собой задачу сделать компилятор, который в принципе имел бы возможность хоть как-нибудь скомпилировать ядро Linux, без оглядки на скорость работы, баги и прочее. Потому часть важного функционала не реализована/реализована частично/реализована некорректно. Внятная же реализация этого, вероятнее всего, раздула бы код ещё сильнее.
Сейчас надо ещё потратиться на GCC-специфичные расширения.
Потратиться-то надо, но не особо ясно, сколько это добавит строк кода, если учесть, что задача у нас в таком случае будет "реализовать расширения ровно настолько, чтобы компилятор мог собрать Linux, без оглядки на всё остальное" (я сильно сомневаюсь, что у компилятора от Anthropic много GCC-специфичных расширений, которых можно назвать "корректно реализованными" со сколь-нибудь адекватной точки зрения).
Ну, уже сейчас есть масса гибридных моделей "трансформеры + мамба".
Справедливости ради, разговоры про всякие разные "альтернативы/нестандартные варианты трансфомера" ведутся уже который год, но воз и ныне там. Не похоже, что все эти архитектуры дают хоть сколь-нибудь значимое преимущество (во всяком случае в плане способностей модели) над трансформерами.
Глава OpenAI Сэм Альтман заявил, что в ближайшем будущем может произойти архитектурный прорыв за пределами трансформеров — и что нынешние модели уже достаточно умны, чтобы помочь его найти.
Как говорится: если Семочка Альтманов начинает прогонять ИИ-бустерский буллщит, то это явный признак того, что дела у OpenAI идут очень плохо.
К слову, а с чего Семочка вообще начал разговаривать про другие архитектуры? А то ведь летом 2025 нам рассказывали про "супер-секретные RL методы, которыми обучали модель для IMO", потом про "Universal Verifiers", затем про "Garlic и прорывы в претрейне", да и в течение последних лет постоянно давались намеки на "супер-секретные мощные приватные модели". К чему тратить время и деньги на новые архитектуры, если с их слов и старый-добрый трансформер едет вперед уверенно?
По данным журнала TIME, от 70 до 90% кода, который используется в Anthropic для разработки будущих моделей, сейчас пишет сам Claude.
Так Дарио предсказывал год назад, что к марту нынешнего года Claude должен писать 100% кода, нет?
Внутренние бенчмарки компании показывают, что ИИ выполняет ряд ключевых задач до 427 раз быстрее, чем его человеческие коллеги.
Конкретики, как понимаю, особо нет, просто цифра, которую понимать можно как угодно?
Релизы моделей, которые раньше разделяли месяцы, теперь выходят с интервалом в недели.
Надеюсь, под этим понимается не "раньше релизы были каждые 3 месяца, сейчас - каждые 12 недель"?
Эван Хабингер, руководитель команды стресс-тестирования выравнивания, говорит прямо: "Рекурсивное самоулучшение в широком смысле — это не будущее. Это настоящее".
Классический прием ИИ-буллщитинга. Помните, что Сёмочка Альтман говорил в январе 2025 про AGI? Да-да, фразы с очень интересным выбором слов, которые не говорили напрямую, что OpenAI решила вопрос AGI и уже его строит, но могли быть проинтерпретированы в таком ключе. Тут то же самое: фраза "рекурсивное самоулучшение в широком смысле" из-за последней части ("в широком смысле") может обозначать что угодно, но при этом вполне виднен расчет на то, что целевая аудитория воспримет это как "было достигнуто рекурсивное самоулучшение в классическом смысле (или хотя бы что-то близкое)". И да, обычно после такого рода заявления следуют провальные релизы. OpenAI не даст соврать.
А дальше одна только ИИ-бустерская хрюканина. Лучше бы Anthropic объяснили, как они замеры на бенчмарках делают, а то не у всех (в т.ч. профессиональных ML-щиков) получается их результаты воспроизвести.
Если взять оригинал статьи, то там примерно следующее: - Статья замалчивает неудобный факт, что те же epoch.ai (да-да, те самые, которых в свое время проспонсировали OpenAI ради FrontierMath) уже исследовали данный вопрос летом 2025, с похожими выводами. Их исследования на тот момент времени, естественно, все проигнорировали, зато сейчас как спохватились. - Причина для повторного исследования данного вопроса: за последние 6 месяцев слишком мало приросло процентов на этом бенчмарке. Т.е. с самого начала видна явная мотивация записать в "нерешаемые" как можно больше задач. Странный выбор слов в отношении проблемных задач (по типу "из-за этих проблем задачи крайне сложно или невозможно решить...") ещё сильнее наводят на такие мысли - Как обычно, никакого списка проблемных задач, чисто "trust me bro". Желающие подсчитать реальные проценты остаются в пролете.
В общем-то да, очень попахивает тем, что OpenAI просто-напросто пытаются избавиться от "неудобного" бенчмарка.
Первая — тесты отбраковывают правильные решения. OpenAI проверила 138 задач, которые модели стабильно не решали, и в 59% случаев нашла дефекты в самих тестах.
А ведь OpenAI, анонсируя бенчмарк, рассказывали, что они там всё проверили, чтобы таких вот вещей не было. А тут бах - и порядка 16% бенчмарка, оказывается, не работает.
Например, тест требует, чтобы функция называлась get_annotation, хотя в описании задачи это имя вообще не упоминается. Любое корректное решение с другим именем функции падает на импорте.
То есть, они в принципе ни разу не посмотрели, с какими задачами модель плохо справляется и какие результаты получаются в целом? Или они знали это, но все равно продолжали использовать данный бенчмарк?
Если честно, такое "признание" звучит как сдвиг финишных ворот. OpenAI не может догнать Anthropic и/или показать на SWE Bench-Verified, а потому сразу заклеймили бенчмарк негодным.
Наверно можно предположить, что я говорил в контексте статьи?
У тех экспертов, которых вы привели в пример, в большинстве своем "относительно скоро" - это минимум 2027, иногда даже позднее. Теперь вы заявляете, что "а я ведь думал, вы понимаете, что относительно скоро - это 2026". Вижу, вы либо вообще не знаете то, что говорят люди, предсказания которых вы приводите в пример, либо хотите строить диалог на постоянных виляниях. Промолчу о том, что вместо четкого ответа сразу вы предпочли писать тонну ненужных вещей. Не вижу смысла продолжать дальше писать
С точки зрения математики, для отрезка [0, 3] противоположностью является объединение (-∞, 0) и (3, +∞).
Но мы говорим не "с точки зрения математики", а "с точки зрения человеческий ощущений".
Но судя по тому, что вы вместо нормального ответа начали придираться к мелочам, ответа у вас нет.
Интересный подход. На мой вопрос вы решили не отвечать прямо, начиная вилять в стороны. А вопрос ведь важный: я скажу "Ну, вот эксперты считают, что все произойдет через 10/20/50 лет", а вы в ответ "Тю-ю-ю-ю, так 10/20/50 лет - это все такое же относительно скоро, так что они не опровергают мои слова".
Так что давайте, скажите прямо, без ухода от темы: что в вашем понимании "относительно скоро". Без четкого ответа на этот вопрос нет смысла в дальнейшем обсуждении, ведь у вас всегда будет возможность и дальше увиливать, используя эту неопределенность.
В этом смысл понятия "обоснованная оценка".
Какой уровень обоснованности у "Мы соединили 10 точек, и оно вроде работает для 11 (при этом у нас нет особо критериев, что считать "вроде работает")?
"Относительно нескоро" это противоположность этого выражения.
Положим, что "относительно скоро" - это ближайшие 3 года. Что является противоположностью для "В течение следующих трех лет"?
Есть известная информация, специалист может на основе нее дать обоснованную оценку.
Почитайте статьи по ML с экстраполяциями. Там буквально все строится по принципу "Мы по точкам из прошлого построили закономерность и предполагаем, что в будущем будет то же самое". Приведенные вами эксперты делают ровно то же самое (и иногда, как METR, переделывают половину бенчмарка, потому что новая модель не соответствует их предсказаниям). Без опоры на какие-то фундаментальные свойства моделей.
Вас устраивают такие прогнозы? Меня лично нет, хотя бы потому что ИИ-индустрия уже дважды обожглась на таких экстраполяциях. А других, в общем-то, и нет. Хотя нет, есть прогнозы, которые строятся на том, что ИИ будет бо-бо, потому что закономерности, предсказывающее стремительное развитие ИИ, резко начали загибаться. Но использовать такое - тоже сомнительно.
А почему они все обязательно должны быть верны? Достоверно предсказывать будущее никто не умеет.
Предсказания от человека с такой серией неуспешных прогнозов доверия не вызывают. Особенно если учесть, что уже на момент выхода AI-2027 эти предсказания выглядели крайне жидко.
На оценках каких конкретно специалистов вы основываете свое мнение, что это произойдет относительно нескоро, и чем они подкрепляют свои заявления? Если ни на каких и ничем, то ваш спор не имеет смысла.
Дайте тогда уж определение "относительно нескоро". В общем-то, горизонт даже в 15 лет можно считать "скоро".
Если специалист не может дать прогноз, значит это плохой специалист. У нормального специалиста будет свое мнение относительно развития его области, которое он может обосновать.
Думается мне, люди, занимающие ИИ, хорошо знают историю развития ИИ, в том числе сколько раз были ситуации по типу "все уважаемые (без сарказма, действительно уважаемые, без материального интереса) ученые думали насчет ИИ одно, а в итоге вышло совершенно другое". Потому и пытаются не делать громких предсказаний, ограничиваясь только очень узкими аспектами.
Да и в целом, в ML неизвестны многие фундаментальные вопросы, из-за чего строить прогнозы по поводу будущего ML - это буквально чистая спекуляция.
Рэй Курцвейл (Ray Kurzweil): Известный футуролог и изобретатель, долгое время работавший в Google.
ИИ-инфлюенсер с кучей несбывшихся предсказаний (по типу "беспилотные автомобили к 2009")
Леопольд Ашенбреннер (Leopold Aschenbrenner): Бывший исследователь безопасности в OpenAI.
Это, случаем, не один из соавторов "AI-2027"? Я напомню, что чуть ли не все предсказания из AI-2027 оказались неверны/верны с очень большой натяжкой.
Сообщество Metaculus: Это платформа прогнозирования, объединяющая тысячи независимых аналитиков и технических специалистов.
Если честно, впервые слышу о них, ну пусть.
Организация METR (бывшая ARC Evals): Независимая некоммерческая организация, занимающаяся тестированием моделей на автономность.
Ну, как сказать "независимая" - отношения с OpenAI у них очень и очень теплые, вплоть до того, что им важнее было выложить статьи про o3/GPT-5 в момент релиза соответствующих моделей, нежели исправить всякие проблемные детали исследования (да, похайпить OpenAI важнее, чем не допустить дезинформацию публики). Даже если не брать критику их исследований (а критиковать там есть что), уровень этики у них на уровне днища.
Говоря проще: METR - обычные ИИ бустеры в шкуре "независимых исследователей", по типу epoch.ai (те, которым OpenAI тихонько заплатили за доступ к FrontierMath, дабы в декабре 2024 можно было устроить шоу с презентацией o3).
Хорошо, приведите пожалуйста конкретных специалистов, которые на ваш взгляд достаточно связаны с ML исследованиями, и их мнение насчет будущего прогресса ИИ.
Исследователи, которые не хайпят, обычно пытаются не делать прогнозов касательно будущего ИИ; в лучшем случае, могут анализировать текущие тенденции с краткосрочными (пара месяцев) предсказаниями.
Они не единственные, кто так говорит. Я привел те примеры, которые указаны в статье. В других статьях такие оценки дают и другие люди.
Кто конкретно дает такие оценки? И какая у них история мнений на этот счет? Они тоже из тех, кто увидел всё величие Opus 4.5 только спустя месяц (!!!) после его релиза?
Его называют создателем Claude Code, я не очень понимаю, почему это недостаточная связь с ML.
Видимо, потому что Claude Code включает в себя не только ML составляющую? Есть разница между "Делать исследования в ML" и "Написать код для ML по готовым статьям". Второе можно делать, не имея познаний в ML.
Сколь понимаю, Борис Черни у нас не связан с ML исследованиями. Более того, он знатно так переобулся в полете в конце декабря (с/м комментарий). Видимо, пиарщики с Anthropic знатно прижали.
Андрей Карпати
Карпати очень любит поездить на волнах хайпа. Так и тут: пошла пиар-компания от Anthropic -> пошли волны рассказов "Больше я не пишу код руками" -> Андрей Карпати тоже резко пошел рассказывать то же самое. В своем интервью, где он упоминал "атрофирование", Карпати даже назвать не смог, что же конкретно случилось в декабре (вернее - в конце декабря, когда и релизов-то не было никаких), что кодинг так поменялся.
Не особо хорошие примеры, так как очень уж много вопросов возникает к заявлениям этих товарищей.
Скорее всего, ничего особенного. METR же известны своими "особыми" отношениями как минимум с OpenAI, поощрением дезинформации, веселыми замерами и ИИ-бустеризмом. Крайне сомневаюсь, что основная цель этого графика - измерение каких-то способностей у моделей.
В январе METR обновил набор задач до версии 1.1: добавил 34% новых тестов и вдвое увеличил число задач длиннее 8 часов.
Просто для справки: из 31 одной задачи длиннее 8 часов только 5 имеют оценки требуемого времени, основанные на результатах людей, (и то, там 5 задач из RE-Bench, который буквально лежит в открытом доступе) у остальных 26 задач временные затраты были измерены колдунствами от самих METR. От этого, как полагаю, и получаются такие результаты.
модели прогрессируют быстрее, чем исследователи успевают создавать новые испытания.
Забавно, что публично они жалуются на "мы не успеваем делать новые задачи", но при этом в версии 1.1 удалили почти 15 задач (v1 имела 170 задач, если что) без объяснения причин
В целом интересно, что Opus 4.6 на реальных задачах и в других бенчмарках в принципе не демонстрирует такого разгромного превосходства. Так что чувствую знатный буллщит
ChatGPT 5.2 Pro почти справляется со всеми данными задачами. Единственное, где он полностью провалился – уравнение с параметром. Получается с высшей математикой справился, а с задачей уровня ЕГЭ нет. Три балла отходит в копилку модели.
Посмотрел на решение несколько раз, но так и не понял, где там ошибка. Автор может разъяснить этот момент? Или у нас тут опять статья-нейрослоп от BotHub?
Это же как делать нечего или... должна быть мотивация, да?
А почему вы в 2 часа ночи по Москве сидите и пытаетесь всем доказать что-то? Какая у вас мотивация?
А так, мне не лень было потратить 20 минут времени да пробежаться глазами по аккаунтам. Если для вас потратить 20 минут - это "мотивация"... Ну ладно
Это тоже наверно всё боты пишут?
Более умеренные комментарии тоже вполне себе попадаются.
Более того, неясно как количество должно подтверждать правдивость. В том же самом месте год назад писали про "х2/х5/х10/х100 продуктивности", но вот Дарио Амодей в недавнем интервью говорил про процентов 20% ускорения. Как так?
Итак, разбор статьи: - Ссылка на очередную демку, которые нам показывали уже кучи раз - Ссылка на цитату от некоторого "Вано". Вано залил копиума - вы копиум и съели. Правда, сам сайт этого самого Вано подозревает в нехороших деяниях, но это мелочи, которые не надо упоминать - кулстори от ботов подпитывают манямирок
Ну и да:
Модели Gemini 2.5, Grok, Composer, Sonnet 3.5, Cursor IDE.
Как быстро определить нейрохрючево? Найти упоминания к чертям устаревших моделей.
На момент выхода Gemini 2.5 (к слову, Pro или Flash?) уже был доступен как минимум Sonnet 3.7, а то и Opus 4/Sonnet 4/o3/o4-mini. Интересненько, а зачем использовать на голову более слабую модель? В чем смысл?
125 тысяч строк кода за 2 недели - тоже классные рассказы. Anthropic, используя Opus 4.6, за 2 недели накатили C компилятор на 100к строк (опустим момент, что его можно было уложить в 10к-15к строк) с кучей багов, при этом признав, что Opus 4.6 часть задач в принципе не сделал, а другую часть - осилил только с использованием готового решения. Более того, на это ещё и ушло 20000 долларов. И тут нам рассказывают, что Sonnet 3.5 и Gemini 2.5 взяли и управились с проектом похожего масштаба, да так, что даже нареканий не было, и ещё чуть ли не бесплатно.
Советую вам завязывать с копиумом и перестать думать, что тут никто не использует ИИ-инструменты или не читает актуальные новости
А это не так? Посмотрите определения пузырей
У нейрохомяков опять ударило весеннее обострение? Или это бесконечное позорничество от OpenAI так ударило в голову?
Такое сравнение, кажется, некорректно. Могу ошибаться, но:
- TCC включает в себя не только непосредственно компилятор.
- TCC имеет фичи, которые не являются необходимыми для сборки ядра Linux
- Anthropic ставили перед собой задачу сделать компилятор, который в принципе имел бы возможность хоть как-нибудь скомпилировать ядро Linux, без оглядки на скорость работы, баги и прочее. Потому часть важного функционала не реализована/реализована частично/реализована некорректно. Внятная же реализация этого, вероятнее всего, раздула бы код ещё сильнее.
Потратиться-то надо, но не особо ясно, сколько это добавит строк кода, если учесть, что задача у нас в таком случае будет "реализовать расширения ровно настолько, чтобы компилятор мог собрать Linux, без оглядки на всё остальное" (я сильно сомневаюсь, что у компилятора от Anthropic много GCC-специфичных расширений, которых можно назвать "корректно реализованными" со сколь-нибудь адекватной точки зрения).
Справедливости ради, разговоры про всякие разные "альтернативы/нестандартные варианты трансфомера" ведутся уже который год, но воз и ныне там. Не похоже, что все эти архитектуры дают хоть сколь-нибудь значимое преимущество (во всяком случае в плане способностей модели) над трансформерами.
Как говорится: если Семочка Альтманов начинает прогонять ИИ-бустерский буллщит, то это явный признак того, что дела у OpenAI идут очень плохо.
К слову, а с чего Семочка вообще начал разговаривать про другие архитектуры? А то ведь летом 2025 нам рассказывали про "супер-секретные RL методы, которыми обучали модель для IMO", потом про "Universal Verifiers", затем про "Garlic и прорывы в претрейне", да и в течение последних лет постоянно давались намеки на "супер-секретные мощные приватные модели". К чему тратить время и деньги на новые архитектуры, если с их слов и старый-добрый трансформер едет вперед уверенно?
Так Дарио предсказывал год назад, что к марту нынешнего года Claude должен писать 100% кода, нет?
Конкретики, как понимаю, особо нет, просто цифра, которую понимать можно как угодно?
Надеюсь, под этим понимается не "раньше релизы были каждые 3 месяца, сейчас - каждые 12 недель"?
Классический прием ИИ-буллщитинга. Помните, что Сёмочка Альтман говорил в январе 2025 про AGI? Да-да, фразы с очень интересным выбором слов, которые не говорили напрямую, что OpenAI решила вопрос AGI и уже его строит, но могли быть проинтерпретированы в таком ключе. Тут то же самое: фраза "рекурсивное самоулучшение в широком смысле" из-за последней части ("в широком смысле") может обозначать что угодно, но при этом вполне виднен расчет на то, что целевая аудитория воспримет это как "было достигнуто рекурсивное самоулучшение в классическом смысле (или хотя бы что-то близкое)". И да, обычно после такого рода заявления следуют провальные релизы. OpenAI не даст соврать.
А дальше одна только ИИ-бустерская хрюканина. Лучше бы Anthropic объяснили, как они замеры на бенчмарках делают, а то не у всех (в т.ч. профессиональных ML-щиков) получается их результаты воспроизвести.
Если взять оригинал статьи, то там примерно следующее:
- Статья замалчивает неудобный факт, что те же epoch.ai (да-да, те самые, которых в свое время проспонсировали OpenAI ради FrontierMath) уже исследовали данный вопрос летом 2025, с похожими выводами. Их исследования на тот момент времени, естественно, все проигнорировали, зато сейчас как спохватились.
- Причина для повторного исследования данного вопроса: за последние 6 месяцев слишком мало приросло процентов на этом бенчмарке. Т.е. с самого начала видна явная мотивация записать в "нерешаемые" как можно больше задач. Странный выбор слов в отношении проблемных задач (по типу "из-за этих проблем задачи крайне сложно или невозможно решить...") ещё сильнее наводят на такие мысли
- Как обычно, никакого списка проблемных задач, чисто "trust me bro". Желающие подсчитать реальные проценты остаются в пролете.
В общем-то да, очень попахивает тем, что OpenAI просто-напросто пытаются избавиться от "неудобного" бенчмарка.
А ведь OpenAI, анонсируя бенчмарк, рассказывали, что они там всё проверили, чтобы таких вот вещей не было. А тут бах - и порядка 16% бенчмарка, оказывается, не работает.
То есть, они в принципе ни разу не посмотрели, с какими задачами модель плохо справляется и какие результаты получаются в целом? Или они знали это, но все равно продолжали использовать данный бенчмарк?
Если честно, такое "признание" звучит как сдвиг финишных ворот. OpenAI не может догнать Anthropic и/или показать на SWE Bench-Verified, а потому сразу заклеймили бенчмарк негодным.
Видимо, потому что статья - очередной слоповоз от BotHub, со всеми вытекающими. Вряд ли это писалось для того, чтобы помочь что-то там сравнить.
У тех экспертов, которых вы привели в пример, в большинстве своем "относительно скоро" - это минимум 2027, иногда даже позднее. Теперь вы заявляете, что "а я ведь думал, вы понимаете, что относительно скоро - это 2026". Вижу, вы либо вообще не знаете то, что говорят люди, предсказания которых вы приводите в пример, либо хотите строить диалог на постоянных виляниях. Промолчу о том, что вместо четкого ответа сразу вы предпочли писать тонну ненужных вещей. Не вижу смысла продолжать дальше писать
Но мы говорим не "с точки зрения математики", а "с точки зрения человеческий ощущений".
Интересный подход. На мой вопрос вы решили не отвечать прямо, начиная вилять в стороны. А вопрос ведь важный: я скажу "Ну, вот эксперты считают, что все произойдет через 10/20/50 лет", а вы в ответ "Тю-ю-ю-ю, так 10/20/50 лет - это все такое же относительно скоро, так что они не опровергают мои слова".
Так что давайте, скажите прямо, без ухода от темы: что в вашем понимании "относительно скоро". Без четкого ответа на этот вопрос нет смысла в дальнейшем обсуждении, ведь у вас всегда будет возможность и дальше увиливать, используя эту неопределенность.
Какой уровень обоснованности у "Мы соединили 10 точек, и оно вроде работает для 11 (при этом у нас нет особо критериев, что считать "вроде работает")?
Положим, что "относительно скоро" - это ближайшие 3 года. Что является противоположностью для "В течение следующих трех лет"?
Почитайте статьи по ML с экстраполяциями. Там буквально все строится по принципу "Мы по точкам из прошлого построили закономерность и предполагаем, что в будущем будет то же самое". Приведенные вами эксперты делают ровно то же самое (и иногда, как METR, переделывают половину бенчмарка, потому что новая модель не соответствует их предсказаниям). Без опоры на какие-то фундаментальные свойства моделей.
Вас устраивают такие прогнозы? Меня лично нет, хотя бы потому что ИИ-индустрия уже дважды обожглась на таких экстраполяциях. А других, в общем-то, и нет. Хотя нет, есть прогнозы, которые строятся на том, что ИИ будет бо-бо, потому что закономерности, предсказывающее стремительное развитие ИИ, резко начали загибаться. Но использовать такое - тоже сомнительно.
Предсказания от человека с такой серией неуспешных прогнозов доверия не вызывают. Особенно если учесть, что уже на момент выхода AI-2027 эти предсказания выглядели крайне жидко.
Дайте тогда уж определение "относительно нескоро". В общем-то, горизонт даже в 15 лет можно считать "скоро".
Думается мне, люди, занимающие ИИ, хорошо знают историю развития ИИ, в том числе сколько раз были ситуации по типу "все уважаемые (без сарказма, действительно уважаемые, без материального интереса) ученые думали насчет ИИ одно, а в итоге вышло совершенно другое". Потому и пытаются не делать громких предсказаний, ограничиваясь только очень узкими аспектами.
Да и в целом, в ML неизвестны многие фундаментальные вопросы, из-за чего строить прогнозы по поводу будущего ML - это буквально чистая спекуляция.
ИИ-инфлюенсер с кучей несбывшихся предсказаний (по типу "беспилотные автомобили к 2009")
Это, случаем, не один из соавторов "AI-2027"? Я напомню, что чуть ли не все предсказания из AI-2027 оказались неверны/верны с очень большой натяжкой.
Если честно, впервые слышу о них, ну пусть.
Ну, как сказать "независимая" - отношения с OpenAI у них очень и очень теплые, вплоть до того, что им важнее было выложить статьи про o3/GPT-5 в момент релиза соответствующих моделей, нежели исправить всякие проблемные детали исследования (да, похайпить OpenAI важнее, чем не допустить дезинформацию публики). Даже если не брать критику их исследований (а критиковать там есть что), уровень этики у них на уровне днища.
Говоря проще: METR - обычные ИИ бустеры в шкуре "независимых исследователей", по типу epoch.ai (те, которым OpenAI тихонько заплатили за доступ к FrontierMath, дабы в декабре 2024 можно было устроить шоу с презентацией o3).
Исследователи, которые не хайпят, обычно пытаются не делать прогнозов касательно будущего ИИ; в лучшем случае, могут анализировать текущие тенденции с краткосрочными (пара месяцев) предсказаниями.
Кто конкретно дает такие оценки? И какая у них история мнений на этот счет? Они тоже из тех, кто увидел всё величие Opus 4.5 только спустя месяц (!!!) после его релиза?
Видимо, потому что Claude Code включает в себя не только ML составляющую? Есть разница между "Делать исследования в ML" и "Написать код для ML по готовым статьям". Второе можно делать, не имея познаний в ML.
Сколь понимаю, Борис Черни у нас не связан с ML исследованиями. Более того, он знатно так переобулся в полете в конце декабря (с/м комментарий). Видимо, пиарщики с Anthropic знатно прижали.
Карпати очень любит поездить на волнах хайпа. Так и тут: пошла пиар-компания от Anthropic -> пошли волны рассказов "Больше я не пишу код руками" -> Андрей Карпати тоже резко пошел рассказывать то же самое. В своем интервью, где он упоминал "атрофирование", Карпати даже назвать не смог, что же конкретно случилось в декабре (вернее - в конце декабря, когда и релизов-то не было никаких), что кодинг так поменялся.
Не особо хорошие примеры, так как очень уж много вопросов возникает к заявлениям этих товарищей.
Многие специалисты - это кто конкретно? И чем они подкрепляют свои заявления?
Скорее всего, ничего особенного. METR же известны своими "особыми" отношениями как минимум с OpenAI, поощрением дезинформации, веселыми замерами и ИИ-бустеризмом. Крайне сомневаюсь, что основная цель этого графика - измерение каких-то способностей у моделей.
Просто для справки: из 31 одной задачи длиннее 8 часов только 5 имеют оценки требуемого времени, основанные на результатах людей, (и то, там 5 задач из RE-Bench, который буквально лежит в открытом доступе) у остальных 26 задач временные затраты были измерены колдунствами от самих METR. От этого, как полагаю, и получаются такие результаты.
Забавно, что публично они жалуются на "мы не успеваем делать новые задачи", но при этом в версии 1.1 удалили почти 15 задач (v1 имела 170 задач, если что) без объяснения причин
В целом интересно, что Opus 4.6 на реальных задачах и в других бенчмарках в принципе не демонстрирует такого разгромного превосходства. Так что чувствую знатный буллщит
Посмотрел на решение несколько раз, но так и не понял, где там ошибка. Автор может разъяснить этот момент? Или у нас тут опять статья-нейрослоп от BotHub?
А почему вы в 2 часа ночи по Москве сидите и пытаетесь всем доказать что-то? Какая у вас мотивация?
А так, мне не лень было потратить 20 минут времени да пробежаться глазами по аккаунтам. Если для вас потратить 20 минут - это "мотивация"... Ну ладно
Более умеренные комментарии тоже вполне себе попадаются.
Более того, неясно как количество должно подтверждать правдивость. В том же самом месте год назад писали про "х2/х5/х10/х100 продуктивности", но вот Дарио Амодей в недавнем интервью говорил про процентов 20% ускорения. Как так?
Итак, разбор статьи:
- Ссылка на очередную демку, которые нам показывали уже кучи раз
- Ссылка на цитату от некоторого "Вано". Вано залил копиума - вы копиум и съели. Правда, сам сайт этого самого Вано подозревает в нехороших деяниях, но это мелочи, которые не надо упоминать - кулстори от ботов подпитывают манямирок
Ну и да:
Как быстро определить нейрохрючево? Найти упоминания к чертям устаревших моделей.
На момент выхода Gemini 2.5 (к слову, Pro или Flash?) уже был доступен как минимум Sonnet 3.7, а то и Opus 4/Sonnet 4/o3/o4-mini. Интересненько, а зачем использовать на голову более слабую модель? В чем смысл?
125 тысяч строк кода за 2 недели - тоже классные рассказы. Anthropic, используя Opus 4.6, за 2 недели накатили C компилятор на 100к строк (опустим момент, что его можно было уложить в 10к-15к строк) с кучей багов, при этом признав, что Opus 4.6 часть задач в принципе не сделал, а другую часть - осилил только с использованием готового решения. Более того, на это ещё и ушло 20000 долларов. И тут нам рассказывают, что Sonnet 3.5 и Gemini 2.5 взяли и управились с проектом похожего масштаба, да так, что даже нареканий не было, и ещё чуть ли не бесплатно.
Советую вам завязывать с копиумом и перестать думать, что тут никто не использует ИИ-инструменты или не читает актуальные новости