Комментарии / Профиль ArZr / Хабр

@ArZr

Пользователь

0,4

Рейтинг

Подписчики

ПрофильСтатьиПостыНовостиКомментарии174

Возможное закрытие Sora может стать «холодным душем» для рынка AI-видео

ArZr 30 мар в 07:40

Бесплатный доступ был рекламой и тестовой компанией.

Да что ж такое-то, опять оказывается, что эпический провал от OpenAI - это и не провал на самом деле, а хитрая многоходовочка и гроссмейстерская игра в 4D шахматы.

Теперь можно продавать

Беда только в том, что покупать никто особо не готов, но так да, можно и продавать

«Не доверяйте этим приложениям»: создатель Django навайбкодил macOS-утилиты на незнакомом языке

ArZr 28 мар в 17:23

Вы правда думаете, что сляпанные на коленке за пару минут ИИ-слопные "сливы" от Anthropic (а вроде только они заявляли о существовании моделей, которые классные в безопасности) являются доказательством того, что эти модели правда существуют? Зачастую такие перформансы наоборот являются показателем того, что дела хуже некуда.

Mythos Meltdown: как утечка о новой LLM обвалила кибербезопасность на $50 млрд

ArZr 28 мар в 07:34

Но рынок отреагировал очень сильно

Это уже проблемы рынка, который раз за разом продолжает наступать на одни и те же грабли.

жалкой такую попытку точно не назовешь в любом случае

Жалкая она из-за того, что даже близко не походит на "случайный слив". Вдобавок эта попытка выглядит так, будто её не планировали заранее, а накатили в торопях (в некоторых местах прямо отдает в лицо отборным слопом). Те же OpenAI и даже Deepmind в этом плане более "креативные".

Mythos Meltdown: как утечка о новой LLM обвалила кибербезопасность на $50 млрд

ArZr 28 мар в 05:52

При этом судя по анонсу новой модели технологический пик LLM ещё не достигнут

Продублирую сюда свой комментарий. Если кратко, то этот "анонс" - сляпанный на коленке за пару минут ИИ-агентами нейробустерский нахрюк, жалкая попытка попиариться и сказать, что "Проблем нет, у нас все классно!". И да, такого рода перформансы обычно устраиваются тогда, когда пик существующих подходов как раз достигнут.

Claude Mythos: Anthropic случайно слила данные о своей мощнейшей модели

ArZr 27 мар в 12:03

Если что, анонсы сохранили. Анонс "Capybara" - тот же самый анонс "Mythos", буквально слово в слово, только везде название "Mythos" поменяли на "Capybara" (хотя нет, анонс "Capybara" содержит упоминание "Mythos" в самом начале, но дальше "Mythos" в тексте не упоминается - видимо, замену названия делали ИИ-агенты). Из-за такой замены, к слову, некоторые предложения в анонсе "Capybara" выглядят крайне шизово, т.е. вероятно этот текст ни в каком из вариантов особо и не читали. В статье куча плейсхолдеров (видимо, пытаются сделать впечатление, что случайно запостили незаконченную работу), но для плейсхолдеров картинки выглядят слишком уж замудренно и сложно, дабы предположить, что они были добавлены человеком. Ещё вдобавок это "резкое удаление", которое явно выглядит максимально тупой попыткой нагнать загадочности; тупость в том, что эти анонсы не содержат информации от слова совсем, вдобавок Anthropic вместо "загадочного молчания" пошли разбалтывать всё об том, что эта модель правда-правда существует и вообще.

В общем, максимально тупая попытка попиариться и отвести внимание от жесткого урезания лимитов в Claude Code.

OpenAI закончила предобучение модели Spud. В компании появился отдел по запуску AGI

ArZr 25 мар в 07:27

На внутренней встрече с сотрудниками CEO OpenAI Сэм Альтман сообщил о завершении предобучения следующей крупной модели компании под кодовым именем Spud. По его словам, через несколько недель OpenAI получит "очень сильную" модель, способную "по-настоящему ускорить экономику".

Просто напомню: каждый раз попытки OpenAI раскрутить тему AGI/сингулярности/секретных моделей/суперинтеллекта заканчивались жидким пердежом в лужу.

Контекст подсказывает, почему именно сейчас.

Да, контекст действительно подсказывает. Закрытие Sora (а это и потерянные инвестиции от Disney, и в целом удар по хайпопузырю); супер-секретная модель Garlic, которая должна была жестко поставить на место и Anthropic, и DeepMind, но по итогу, видимо, оказалась очередным пустым обещанием; отставание OpenAI от тех же Anthropic (да и DeepMind начал серьезно угрожать); огромные проблемы с деньгами.

Действительно, вообще неясно, почему именно сейчас начала "сливаться" информации о супер-моделях, который в этот раз ну точно все изменят.

В общем, с вероятностью в 95% у нас тут очередной обман от издыхающих OpenAI и не более того.

Как за выходные собрать сайт-визитку на чистом HTML/CSS использую нейронки

ArZr 22 мар в 13:51

ИИ это пузырь

А это не так? Посмотрите определения пузырей

неолуддитское "вывсёврёти"

У нейрохомяков опять ударило весеннее обострение? Или это бесконечное позорничество от OpenAI так ударило в голову?

Собранный Opus 4.6 компилятор провалился в независимом бенчмарке

ArZr 18 мар в 12:23

TCC (Tiny C Compiler) - ~50k строк.

Такое сравнение, кажется, некорректно. Могу ошибаться, но:
- TCC включает в себя не только непосредственно компилятор.
- TCC имеет фичи, которые не являются необходимыми для сборки ядра Linux
- Anthropic ставили перед собой задачу сделать компилятор, который в принципе имел бы возможность хоть как-нибудь скомпилировать ядро Linux, без оглядки на скорость работы, баги и прочее. Потому часть важного функционала не реализована/реализована частично/реализована некорректно. Внятная же реализация этого, вероятнее всего, раздула бы код ещё сильнее.

Сейчас надо ещё потратиться на GCC-специфичные расширения.

Потратиться-то надо, но не особо ясно, сколько это добавит строк кода, если учесть, что задача у нас в таком случае будет "реализовать расширения ровно настолько, чтобы компилятор мог собрать Linux, без оглядки на всё остальное" (я сильно сомневаюсь, что у компилятора от Anthropic много GCC-специфичных расширений, которых можно назвать "корректно реализованными" со сколь-нибудь адекватной точки зрения).

«AGI будет выглядеть как разминка»: Альтман о следующем прорыве в ИИ

ArZr 15 мар в 23:20

Ну, уже сейчас есть масса гибридных моделей "трансформеры + мамба".

Справедливости ради, разговоры про всякие разные "альтернативы/нестандартные варианты трансфомера" ведутся уже который год, но воз и ныне там. Не похоже, что все эти архитектуры дают хоть сколь-нибудь значимое преимущество (во всяком случае в плане способностей модели) над трансформерами.

«AGI будет выглядеть как разминка»: Альтман о следующем прорыве в ИИ

ArZr 15 мар в 22:57

Глава OpenAI Сэм Альтман заявил, что в ближайшем будущем может произойти архитектурный прорыв за пределами трансформеров — и что нынешние модели уже достаточно умны, чтобы помочь его найти.

Как говорится: если Семочка Альтманов начинает прогонять ИИ-бустерский буллщит, то это явный признак того, что дела у OpenAI идут очень плохо.

К слову, а с чего Семочка вообще начал разговаривать про другие архитектуры? А то ведь летом 2025 нам рассказывали про "супер-секретные RL методы, которыми обучали модель для IMO", потом про "Universal Verifiers", затем про "Garlic и прорывы в претрейне", да и в течение последних лет постоянно давались намеки на "супер-секретные мощные приватные модели". К чему тратить время и деньги на новые архитектуры, если с их слов и старый-добрый трансформер едет вперед уверенно?

+18

Claude уже пишет до 90% кода своих будущих версий — и в Anthropic говорят, что это только начало

ArZr 11 мар в 22:52

По данным журнала TIME, от 70 до 90% кода, который используется в Anthropic для разработки будущих моделей, сейчас пишет сам Claude.

Так Дарио предсказывал год назад, что к марту нынешнего года Claude должен писать 100% кода, нет?

Внутренние бенчмарки компании показывают, что ИИ выполняет ряд ключевых задач до 427 раз быстрее, чем его человеческие коллеги.

Конкретики, как понимаю, особо нет, просто цифра, которую понимать можно как угодно?

Релизы моделей, которые раньше разделяли месяцы, теперь выходят с интервалом в недели.

Надеюсь, под этим понимается не "раньше релизы были каждые 3 месяца, сейчас - каждые 12 недель"?

Эван Хабингер, руководитель команды стресс-тестирования выравнивания, говорит прямо: "Рекурсивное самоулучшение в широком смысле — это не будущее. Это настоящее".

Классический прием ИИ-буллщитинга. Помните, что Сёмочка Альтман говорил в январе 2025 про AGI? Да-да, фразы с очень интересным выбором слов, которые не говорили напрямую, что OpenAI решила вопрос AGI и уже его строит, но могли быть проинтерпретированы в таком ключе. Тут то же самое: фраза "рекурсивное самоулучшение в широком смысле" из-за последней части ("в широком смысле") может обозначать что угодно, но при этом вполне виднен расчет на то, что целевая аудитория воспримет это как "было достигнуто рекурсивное самоулучшение в классическом смысле (или хотя бы что-то близкое)". И да, обычно после такого рода заявления следуют провальные релизы. OpenAI не даст соврать.

А дальше одна только ИИ-бустерская хрюканина. Лучше бы Anthropic объяснили, как они замеры на бенчмарках делают, а то не у всех (в т.ч. профессиональных ML-щиков) получается их результаты воспроизвести.

+12

ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

ArZr 25 фев в 21:28

Если взять оригинал статьи, то там примерно следующее:
- Статья замалчивает неудобный факт, что те же epoch.ai (да-да, те самые, которых в свое время проспонсировали OpenAI ради FrontierMath) уже исследовали данный вопрос летом 2025, с похожими выводами. Их исследования на тот момент времени, естественно, все проигнорировали, зато сейчас как спохватились.
- Причина для повторного исследования данного вопроса: за последние 6 месяцев слишком мало приросло процентов на этом бенчмарке. Т.е. с самого начала видна явная мотивация записать в "нерешаемые" как можно больше задач. Странный выбор слов в отношении проблемных задач (по типу "из-за этих проблем задачи крайне сложно или невозможно решить...") ещё сильнее наводят на такие мысли
- Как обычно, никакого списка проблемных задач, чисто "trust me bro". Желающие подсчитать реальные проценты остаются в пролете.

В общем-то да, очень попахивает тем, что OpenAI просто-напросто пытаются избавиться от "неудобного" бенчмарка.

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

ArZr 23 фев в 20:01

Первая — тесты отбраковывают правильные решения. OpenAI проверила 138 задач, которые модели стабильно не решали, и в 59% случаев нашла дефекты в самих тестах.

А ведь OpenAI, анонсируя бенчмарк, рассказывали, что они там всё проверили, чтобы таких вот вещей не было. А тут бах - и порядка 16% бенчмарка, оказывается, не работает.

Например, тест требует, чтобы функция называлась get_annotation, хотя в описании задачи это имя вообще не упоминается. Любое корректное решение с другим именем функции падает на импорте.

То есть, они в принципе ни разу не посмотрели, с какими задачами модель плохо справляется и какие результаты получаются в целом? Или они знали это, но все равно продолжали использовать данный бенчмарк?

Если честно, такое "признание" звучит как сдвиг финишных ворот. OpenAI не может догнать Anthropic и/или показать на SWE Bench-Verified, а потому сразу заклеймили бенчмарк негодным.

Claude Sonnet 4.6 vs ChatGPT 5.2: кто же лучше?

ArZr 23 фев в 16:19

Видимо, потому что статья - очередной слоповоз от BotHub, со всеми вытекающими. Вряд ли это писалось для того, чтобы помочь что-то там сравнить.

Создатель Claude Code от Anthropic предсказал, что должность инженера-программиста начнет «исчезать» в 2026 году

ArZr 22 фев в 17:58

Наверно можно предположить, что я говорил в контексте статьи?

У тех экспертов, которых вы привели в пример, в большинстве своем "относительно скоро" - это минимум 2027, иногда даже позднее. Теперь вы заявляете, что "а я ведь думал, вы понимаете, что относительно скоро - это 2026". Вижу, вы либо вообще не знаете то, что говорят люди, предсказания которых вы приводите в пример, либо хотите строить диалог на постоянных виляниях. Промолчу о том, что вместо четкого ответа сразу вы предпочли писать тонну ненужных вещей. Не вижу смысла продолжать дальше писать

Создатель Claude Code от Anthropic предсказал, что должность инженера-программиста начнет «исчезать» в 2026 году

ArZr 22 фев в 16:57

С точки зрения математики, для отрезка [0, 3] противоположностью является объединение (-∞, 0) и (3, +∞).

Но мы говорим не "с точки зрения математики", а "с точки зрения человеческий ощущений".

Но судя по тому, что вы вместо нормального ответа начали придираться к мелочам, ответа у вас нет.

Интересный подход. На мой вопрос вы решили не отвечать прямо, начиная вилять в стороны. А вопрос ведь важный: я скажу "Ну, вот эксперты считают, что все произойдет через 10/20/50 лет", а вы в ответ "Тю-ю-ю-ю, так 10/20/50 лет - это все такое же относительно скоро, так что они не опровергают мои слова".

Так что давайте, скажите прямо, без ухода от темы: что в вашем понимании "относительно скоро". Без четкого ответа на этот вопрос нет смысла в дальнейшем обсуждении, ведь у вас всегда будет возможность и дальше увиливать, используя эту неопределенность.

В этом смысл понятия "обоснованная оценка".

Какой уровень обоснованности у "Мы соединили 10 точек, и оно вроде работает для 11 (при этом у нас нет особо критериев, что считать "вроде работает")?

Создатель Claude Code от Anthropic предсказал, что должность инженера-программиста начнет «исчезать» в 2026 году

ArZr 22 фев в 16:33

"Относительно нескоро" это противоположность этого выражения.

Положим, что "относительно скоро" - это ближайшие 3 года. Что является противоположностью для "В течение следующих трех лет"?

Есть известная информация, специалист может на основе нее дать обоснованную оценку.

Почитайте статьи по ML с экстраполяциями. Там буквально все строится по принципу "Мы по точкам из прошлого построили закономерность и предполагаем, что в будущем будет то же самое". Приведенные вами эксперты делают ровно то же самое (и иногда, как METR, переделывают половину бенчмарка, потому что новая модель не соответствует их предсказаниям). Без опоры на какие-то фундаментальные свойства моделей.

Вас устраивают такие прогнозы? Меня лично нет, хотя бы потому что ИИ-индустрия уже дважды обожглась на таких экстраполяциях. А других, в общем-то, и нет. Хотя нет, есть прогнозы, которые строятся на том, что ИИ будет бо-бо, потому что закономерности, предсказывающее стремительное развитие ИИ, резко начали загибаться. Но использовать такое - тоже сомнительно.

Создатель Claude Code от Anthropic предсказал, что должность инженера-программиста начнет «исчезать» в 2026 году

ArZr 22 фев в 16:07

А почему они все обязательно должны быть верны? Достоверно предсказывать будущее никто не умеет.

Предсказания от человека с такой серией неуспешных прогнозов доверия не вызывают. Особенно если учесть, что уже на момент выхода AI-2027 эти предсказания выглядели крайне жидко.

На оценках каких конкретно специалистов вы основываете свое мнение, что это произойдет относительно нескоро, и чем они подкрепляют свои заявления? Если ни на каких и ничем, то ваш спор не имеет смысла.

Дайте тогда уж определение "относительно нескоро". В общем-то, горизонт даже в 15 лет можно считать "скоро".

Если специалист не может дать прогноз, значит это плохой специалист. У нормального специалиста будет свое мнение относительно развития его области, которое он может обосновать.

Думается мне, люди, занимающие ИИ, хорошо знают историю развития ИИ, в том числе сколько раз были ситуации по типу "все уважаемые (без сарказма, действительно уважаемые, без материального интереса) ученые думали насчет ИИ одно, а в итоге вышло совершенно другое". Потому и пытаются не делать громких предсказаний, ограничиваясь только очень узкими аспектами.

Да и в целом, в ML неизвестны многие фундаментальные вопросы, из-за чего строить прогнозы по поводу будущего ML - это буквально чистая спекуляция.

Создатель Claude Code от Anthropic предсказал, что должность инженера-программиста начнет «исчезать» в 2026 году

ArZr 22 фев в 15:06

Рэй Курцвейл (Ray Kurzweil): Известный футуролог и изобретатель, долгое время работавший в Google.

ИИ-инфлюенсер с кучей несбывшихся предсказаний (по типу "беспилотные автомобили к 2009")

Леопольд Ашенбреннер (Leopold Aschenbrenner): Бывший исследователь безопасности в OpenAI.

Это, случаем, не один из соавторов "AI-2027"? Я напомню, что чуть ли не все предсказания из AI-2027 оказались неверны/верны с очень большой натяжкой.

Сообщество Metaculus: Это платформа прогнозирования, объединяющая тысячи независимых аналитиков и технических специалистов.

Если честно, впервые слышу о них, ну пусть.

Организация METR (бывшая ARC Evals): Независимая некоммерческая организация, занимающаяся тестированием моделей на автономность.

Ну, как сказать "независимая" - отношения с OpenAI у них очень и очень теплые, вплоть до того, что им важнее было выложить статьи про o3/GPT-5 в момент релиза соответствующих моделей, нежели исправить всякие проблемные детали исследования (да, похайпить OpenAI важнее, чем не допустить дезинформацию публики). Даже если не брать критику их исследований (а критиковать там есть что), уровень этики у них на уровне днища.

Говоря проще: METR - обычные ИИ бустеры в шкуре "независимых исследователей", по типу epoch.ai (те, которым OpenAI тихонько заплатили за доступ к FrontierMath, дабы в декабре 2024 можно было устроить шоу с презентацией o3).

Хорошо, приведите пожалуйста конкретных специалистов, которые на ваш взгляд достаточно связаны с ML исследованиями, и их мнение насчет будущего прогресса ИИ.

Исследователи, которые не хайпят, обычно пытаются не делать прогнозов касательно будущего ИИ; в лучшем случае, могут анализировать текущие тенденции с краткосрочными (пара месяцев) предсказаниями.

Создатель Claude Code от Anthropic предсказал, что должность инженера-программиста начнет «исчезать» в 2026 году

ArZr 22 фев в 13:54

Они не единственные, кто так говорит. Я привел те примеры, которые указаны в статье. В других статьях такие оценки дают и другие люди.

Кто конкретно дает такие оценки? И какая у них история мнений на этот счет? Они тоже из тех, кто увидел всё величие Opus 4.5 только спустя месяц (!!!) после его релиза?

Его называют создателем Claude Code, я не очень понимаю, почему это недостаточная связь с ML.

Видимо, потому что Claude Code включает в себя не только ML составляющую? Есть разница между "Делать исследования в ML" и "Написать код для ML по готовым статьям". Второе можно делать, не имея познаний в ML.

3 4 ...

8 9