runaway_llm21 дек 2025 в 19:47

Claude Opus 4.5 побил рекорд автономности: справляется с 5-часовыми задачами, но есть нюансы

2 мин

14K

Искусственный интеллектМашинное обучение *

Комментарии 33

NeriaLab 22 дек 2025 в 02:08

И чем они хотели удивить? Что их "монстры", сжигающие целые ГЭС на сотнях GPU, с трудом держат 50%-ную точность всего на 5 часах и это в 2025-то году? Фи... Позорники.

Тот же SOAR или продвинутые когнитивно-символьные архитектуры 10 лет назад выдавали 95%+ точности на 6-часовых тактических симуляциях (DARPA) и безо всяких галлюцинаций и доверительных интервалов от часа до суток. Их горизонт ограничивался не "окном внимания", а сложностью формализации мира. А этот "революционный прогресс" - это просто рост мощности "обогревателя" данных, который научили случайным образом тыкаться в интерфейсы. Прорыв? Скорее, признание, что нейросети без логического скелета - это как шимпанзе с шуруповёртом: может случайно собрать стул, а может и себе по лбу дать. Когда уже начнёте мерить надёжность, а не "горизонт надежды"?

Za4emsu 22 дек 2025 в 04:11

Это же ИИ написал, да?

NeriaLab 22 дек 2025 в 04:21

Какой страшный ИИ, везде то он пишет... страшно до жути. А можно мне показать этот ИИ?

AlexEx70 22 дек 2025 в 05:16

Ну вот вы на заре развития электронных вычислений наверное бы тоже кричали "вы посмотрите, они же целые здания занимают, эти монстры, вот у меня счеты на стол помещаются", лукаво не замечая, что счеты (SOAR) не вывезут сложный расчет и что сегодня монстры, а завтра в карман помещаются.

NeriaLab 22 дек 2025 в 05:22

"Счёты", т.е. Soar, ведь так Вы её назвали?! Soar почти управляет боевым самолётом F-16, а LLM`ки даже толком роботами управлять не умеют. Программы ACE и ACE-TRUST (DARPA), успешно заканчивается и в ближайшие год-два полностью будет управлять самолётами других поколений и частично заменит/дополнит пилотов на службе USAF

GoldGoblin 22 дек 2025 в 05:54

Напишите о них статью а не засоряйте комментариями выкриками не по теме.

NeriaLab 22 дек 2025 в 05:58

Если Вам не нравится какой-либо комментарий, то Вы можете написать с Службу поддержки Хабра с пояснениями почему тот или иной комментарий должен быть удалён и они вынесут окончательное решение - все просто

GoldGoblin 22 дек 2025 в 09:01

А так же могу написать комментарий. Сможете показать хоть одну доступную простым пользователям soar?

NeriaLab 22 дек 2025 в 09:09

Наберите в Google одну систему из списка (список когнитивно-символьных систем очень большой) и изучайте: Soar, ACT-R, ICARUS, CRAM, CLARION и т.д. и т.п.

GoldGoblin 22 дек 2025 в 11:55

Повторю вопрос: Сможете показать хоть одну доступную простым пользователям soar?

pragmatik 23 дек 2025 в 02:05

Если Вам не нравится какой-либо комментарий, то Вы можете написать с Службу поддержки Хабра

Не нужно учить людей плохому. Основанием для удаления чьего-либо комментария может служить только факт нарушения правил сайта. Поэтому сообщать в службу поддержки следует только о случаях нарушения правил. Сообщать о чьих-либо эмоциях в службу поддержки не нужно. Если бы операторы службы поддержки реагировали на каждое выражение недовольства вашими сгенерированными комментариями, то ваш аккаунт, @NeriaLab, уже давно был бы заблокирован.

почему тот или иной комментарий должен быть удалён

Как правило, такая мера, как удаление контента, применяется только в наиболее деструктивных для сообщества случаях нарушения правил. А, если контент более-менее толковый, то его стремятся сохранить, даже в случае грубых нарушений. Например, заменяя нецензурную лексику заглушкой [CENSORED].

Поэтому я настоятельно рекомендую вам лично, @NeriaLab, прекратить попытки использовать модераторов для удаления неприятных вам комментариев.

HyperWin 22 дек 2025 в 06:39

Могли бы и сами статью написать о том как вам люди на хабре не нравятся, вместо выкрикиваний в комментариях. Ведь так настоящие мужики делают?

GoldGoblin 22 дек 2025 в 12:03

Зачем? За меня все написано к примеру тут: https://habr.com/ru/articles/959840/
Моя претензия к автору комментария в том что он сравнивает не сравнимое и как мне кажется пытается принизить заслуги llm но при этом дать ссылку на доступную неограниченному кругу лиц soar не может. А значит для меня он просто тратит место в базе данных ненужной информацией не по теме.
Нужно больше аргументов? Вот посмотрите чуть ниже на ответ пользователя NeriaLab на вопрос пользователя AlexEx70. Прямой вопрос и какой "точный ответ"

AlexEx70 22 дек 2025 в 08:23

Умеет ваш soar приложение написать? Если нет, то зачем же вы сравнениями занимаетесь?

NeriaLab 22 дек 2025 в 08:33

Написать приложение? Может, но вопрос в целесообразности.

Когнитивно-символьные архитектуры (КСА), такие как Soar, в первую очередь предназначены для моделирования человеческого мышления, адаптивного принятия решений и решения задач в динамических средах, а не для простой генерации кода.

Тем не менее, на уровне специализированных модулей обучить КСА разработке ПО вполне реально. Я знаю как минимум три проекта на базе КСА, где подобные модули уже внедряются. Результаты впечатляют: архитектура способна не просто "выдавать код", а понимать логику работы программы и планировать её структуру. Сейчас для разработчиков этих систем создание приложений не приоритетная задача.

P.S. Любую когнитивную архитектуру можно обучить чему угодно, хоть код писать, хоть крестиком вышивать. И в отличие от LLM, которые просто подбирают наиболее вероятные токены, КСА после обучения будет выдавать гарантированно качественный и логически выверенный результат. Вопрос лишь в том, кто будет обучать систему этим правилам и как выстроить этот процесс.

AlexEx70 22 дек 2025 в 10:24

Я не вижу за вашим тестом ответа на вопрос. Давайте проще:

Задача -> Агентная LLM -> Есть решение (может криво-косо-дорого, но решение есть)
Задача -> КСА -> Где решение? Где примеры? Как заюзать, как посмотреть/сравнить? Что за проекты? Тоже хочется впечатлиться.

NeriaLab 22 дек 2025 в 10:37

Коллега, мы с Вами не в детском саду и оба умеем пользоваться поисковыми системами. Soar "наистарейшая", а значит наиболее известная система, примеров для неё не просто вагон и маленькая тележка, а океан. Для всех когнитивно-символьных систем есть примеры, полная документация, полностью прописанные этические кодексы и т.д. и т.д.

P.S.: LLM не является агентом по своей сути, в отличии от КСА

GoldGoblin 22 дек 2025 в 12:11

Коллега, если примеров "океан", странно, что вы не показали хоть одну общедоступную систему. И да, я думаю что апелляция к "наистарейшести" не самый убедительный аргумент в дискуссии о современных технологиях.

Flokis_guy 22 дек 2025 в 13:02

Мне вот в очередной раз интересно, если эта архитектура настолько крута, где конкруент OpenAI, или вы считаете, что не найдутся люди, которые не захотят на ней наживится, ну или те, кто не захочит получать большие деньги для ее развития, если они очень идейные?

NeriaLab 22 дек 2025 в 13:29

Вопрос закономерный: "если архитектура настолько крута", то где миллиарды долларов? Давайте попробую ответить:

КСА - это "игра вдолгую". OpenAI и другие, пошли по пути наименьшего сопротивления: закинули в нейросеть колоссальный объем данных и вычислительных мощностей. Это дало быстрый, "магический" результат, на котором легко спекулировать. КСА же требуют глубокой проработки структуры знаний. Обучить КСА - это как воспитать и обучить ребенка, а создать LLM - это как построить гигантскую статистическую таблицу. Инвесторы в 2023-2025 годах предпочитают вкладывать в то, что "просто работает прямо сейчас", даже если оно галлюцинирует и не обладает логикой;
Присутствует инфраструктурный разрыв. Для развития OpenAI нужны только видеокарты и данные. Для развития КСА нужны высококвалифицированные специалисты, понимающие когнитивную психологию, логику и архитектуру систем одновременно. Таких людей в мире в тысячи раз меньше, чем дата-~~сатанистов~~ сайентистов;
Где же конкуренты? На самом деле, они есть, но они не всегда называют себя "конкурентами OpenAI". Многие военные, космические и промышленные проекты (примеры: в NASA, оборонный сектор США, медицина, обучение людей, юриспруденция) используют именно КСА (включая Soar), потому что там нельзя ошибаться. OpenAI или xAI не может гарантировать, что их ракета не врежется в здание из-за "галлюцинации" модели, а КСА - может, так как она работает на проверяемых выводах. Вспомним случаи "галлюцинаций" и некорректных ответов Grok в середине 2025 года (скандалы с политическими высказываниями), что заставляют инженеров SpaceX быть крайне осторожными с внедрением ИИ в критические системы управления полетом и ITAR уже высказалась в своё время по этому поводу. Маск может в один момент лишится и SpaceX и других своих компаний, если Grok допустит хоть одну ошибку при взаимодействии со SpaceX;
Люди, работающие над КСА, часто стремятся к созданию настоящего и сильного ИИ, а не "продвинутого Т9". Проекты вроде OpenCog Hyperon Бена Гертцеля или новые разработки в Soar и ACT-R как раз нацелены на объединение нейросетей (как глаз и ушей) и КСА (как основного и логического центра);
Экономика и окупаемость - это самый важный момент. Да, разработка и интеграция КСА на старте дороже и сложнее. Но как только система создана и внедрена, её использование с лихвой окупает все расходы:

Во-первых, ей не нужны фермы из тысяч видеокарт - она потребляет в разы меньше энергии. Одна система спокойно работает на любом компьютере, даже со "старенькой" видеокартой;
Во-вторых, она не требует "армии людей" для проверки ошибок;
В-третьих, она легко изменяется в реальном режиме времени, добавлением пары правил, а не переобучением за миллионы долларов.

Мы не видим конкурента OpenAI на базе КСА в каждом смартфоне не потому, что архитектура слабая, а потому что она требует другого уровня инженерной культуры. LLM - это фастфуд: быстро, вкусно, но вредно. КСА - это высокая кухня: долго, дорого, но это единственный путь к созданию интеллекта.

GoldGoblin 22 дек 2025 в 13:57

А я думал что вы больше не читаете здесь комментарии.
Дисклеймер: Если вам не нравятся мои комментарии или вам нечего на них ответить то вы можете написать с Службу поддержки Хабра с пояснениями почему тот или иной комментарий должен быть удалён и они вынесут окончательное решение или продолжить меня минусовать.

1) LLM это тоже игра в долгую. Если я ничего не путаю то первые образцы появились в 90 годах. Подскажите в каких годах появились первые КСА?

2) До бума LLM специалистов по ним было тоже крайне мало. Но рынок привел к тому что специалистов становится все больше и больше. С КСА сейчас происходит такой же путь?

3) Так может все же не конкуренты а разные направления?

4) Я извиняюсь но нейронные сети уже давно не продвинутые Т9.

5) Тут мне нечего сказать. Я не видел ни одной рабочей системы

А вообще при таких объемах комментариев написали бы статью...

Flokis_guy 22 дек 2025 в 14:37

Тут есть один очень интересный момент. Если мы интеллект можем переложить на текст, и этот текст имеет некоторую функцию в лебеговом пространстве, то LLM теоретически могут это воссоздать. На практике не факт, так как мы ограничены ресурсами, но суть в том, что сейчас они показывают свою некоторую эффективность где это необходимо, ну если не считать ai слоп.

Теперь перенесемся к КСА, если они теоретически так же могут воссоздать человеческий интеллект, но на практике это сделать сложно, так как требует хорошей проработки по вашим же словам(ну и это очевидно из того, что лидером является пока что LLM в финансовом плане), то в чем смысл? Ну типо окей, и то и то может интеллект теоретически воссоздать, но при этом LLM показывают результат, а КСА пока что нет как видим, а значит тогда с чего бы на них обращать пристальное внимание инвесторам и прочим кто создаёт стартапы. Доказательств того, что они придут к AGI быстрее - нет, а значит где увидеть, что они лучше LLM, только исходя из ваших красивых речей?

То есть, если нет огромного финансирования, хайпа и прочего, что очевидно было бы, если бы они обогнали на большинстве задач LLM, то с чего они должны быть лучше?

NeriaLab 22 дек 2025 в 15:23

"...Если мы интеллект можем переложить на текст, и этот текст имеет некоторую функцию в лебеговом пространстве, то LLM теоретически могут это воссоздать..."

Нет, не можете - причина не в тексте. Поинтересуйтесь тем, как думают слепо-глухо-немые от рождения. Возьмите за пример жизнь Хелен Келлер

"...мы ограничены ресурсами, но суть в том, что сейчас они показывают свою некоторую эффективность где это необходимо..."

Где и в чем эффективны? Что простая задача, что сложная, требует вычисления на видеокарте - это уже не эффективное расходование вычислительных ресурсов, а расходы растут по экспоненте

"...лидером является пока что LLM в финансовом плане..."

Кто сказал? Уже лярды вбуханы в OpenAI, а она до сих пор убыточна. В Soar примерно столько же вбухано, но растянуто по времени, но интегрирована и глубоко во все военные системы США и дает результат. В КАС выгодней вкладывать, что и показывают последние инвестиции в тот же CRAM (робототехника)

"...если бы они обогнали на большинстве задач LLM..."

Назовите хоть одну интеллектуальную задачу где LLM лидирует, увы но нет таких.

"...из ваших красивых речей?..."

Не только моих, об этом твердят много исследователей и экспертов в области ИИ. Просто ради праздного любопытства, ознакомьтесь со всеми последними достижениями в КСА за 2025 год, Вы будете удивлены. Немного примеров:

Soar - новые механизмы работы с долговременной памятью (LTI), а у LLM на уровне ядра даже простой LTM нет;
ACT-R - моделирование физиологических состояний внутри архитектуры;
CRAM - показали способность к логическому выводу в нестандартных ситуациях;
и т.д. и т.п.

Прошу Вас ответить на один простой вопрос: почему если у LLM все так хорошо и "распрекрасно", то появляются все больше и больше нейро-символьных проектов? Символьные же архитектуры и их гибриды - это же фигня и ничего не могут, они же "устаревшие"?!

GoldGoblin 22 дек 2025 в 16:16

Назовите хоть одну интеллектуальную задачу где LLM лидирует, увы но нет таких.

В генерации кода, текста... Или вы все же покажите КСА которое это умеет уже сейчас и доступна всем? Ах да, забыл: Сейчас для разработчиков этих систем создание приложений не приоритетная задача.

Вы предлагаете сравнивать существующие llm с конем в вакууме под названием КСА.

Я вижу что вы не отвечаете на мои комментарии но думаю вы их читаете. Подскажите откуда у вас информация о том что: КСА интегрирована и глубоко во все военные системы США и дает результат.

об этом твердят много исследователей и экспертов в области ИИ. Просто ради праздного любопытства, ознакомьтесь со всеми последними достижениями в КСА за 2025 год, Вы будете удивлены
Я буду удивлен если увижу хоть одну ссылку на рабочую общедоступную систему.

Прошу Вас ответить на один простой вопрос: почему если у LLM все так хорошо и "распрекрасно", то появляются все больше и больше нейро-символьных проектов? Символьные же архитектуры и их гибриды - это же фигня и ничего не могут, они же "устаревшие"?!
Можно я отвечу? Потому что это разные инструменты. Разные задачи и цели а следовательно и разные инструменты.

Flokis_guy 22 дек 2025 в 16:50

Нет, не можете - причина не в тексте. Поинтересуйтесь тем, как думают слепо-глухо-немые от рождения. Возьмите за пример жизнь Хелен Келлер

Так я и не говорю что мышление равно тексту/языку, я говорю о проекции интеллекта на "бумагу". Да и пример плохой, она таковой стала не от рождения, а в детстве.

Где и в чем эффективны? Что простая задача, что сложная, требует вычисления на видеокарте - это уже не эффективное расходование вычислительных ресурсов, а расходы растут по экспоненте

Человеку много где дороже платить, чем за электричество для видеокарт.

Кто сказал? Уже лярды вбуханы в OpenAI

Так в том то и суть, я говорю про само количество денег, а не про прибыльность.

Назовите хоть одну интеллектуальную задачу где LLM лидирует, увы но нет таких.

Humanity's Last Exam

Ну и все таки, когда вы ответите другому комментатору:)

NeriaLab 22 дек 2025 в 16:59

Прибыльность у КСС в разы выше. Давайте посмотрим на аренду NVidia H100 от 290 000 до 750 000+ рублей, в зависимости от провайдера, конфигурации сервера, объема памяти (80GB) и включенных ресурсов (взял из сети). Стоимость работы КСС в месяц = стоимость эл-ва за месяц от 1500 до 3000 руб в Москве (взято из сети). Ой...

HLE разработан, чтобы вознаграждать логическое понимание, а т.к. у LLM с логикой всё туго, то его проходят когнитивно-символьные и нейро-символьные системы с ядром КСС, а не LLM. Чистые LLM всегда на последних местах А это второй ой...

Flokis_guy 22 дек 2025 в 17:01

Покажите тогда их результаты на этом тесте. Где они его проходят.

GoldGoblin 22 дек 2025 в 17:40

Стоимость работы КСС в месяц = стоимость эл-ва за месяц от 1500 до 3000 руб в Москве (взято из сети).

1500 - 3000 рублей на коня в вакууме или вы покажите нам пример? =)

LuckyJewish 22 дек 2025 в 21:11

Лее, мужики, успокойтесь

Вы чё, реально сейчас будете всерьёз дискутировать о сравнении Тигра и Феррари?

Окей, ксс управляет самолётом, зашибись!

Модели на основе коннективизма генерируют видео, которое используется при создании фильмов, создают гиперреалистичные фото и пишут творческие тексты.

Это просто разные.. плоды теории информации. И не стоит позориться сравнением этого с сознанием и фантазировать о единорогах вроде agi

IAmNotMe 23 дек 2025 в 08:33

Ничего удивительного! (с) Подумаешь, работает автономно сутки. А пусть он попробует автономно годами, как человек! А сутки - это ерунда! Нечему тут удивляться!

(Пост написан из недалёкого будущего)

ArZr 23 дек 2025 в 14:32

Ничего удивительного! (с) Подумаешь, работает автономно сутки. А пусть он попробует автономно годами, как человек! А сутки - это ерунда! Нечему тут удивляться!

Сарказм с попыткой обвинить в moving goalposts был бы уместен, если бы:
- Данный временной горизонт четко отображался в других бенчмарках (по факту - нет, все не так тривиально)
- Датасет содержал бы внятные задачи, а не "Обучить модель под CIFAR-10, используя только CPU" с оценкой в ~6 часов, или вообще задачи, которые весят дохрена и висят в открытом доступе
- METR не ловили бы на непрозрачных решениях, ИИ бустеризме и откровенном буллщите с их замерами

А так... сложно сказать, насколько это впечатляет

ArZr 22 дек 2025 в 07:09

Модель от Anthropic показала 50%-горизонт около 4 часов 49 минут — это рекорд среди всех протестированных систем. Показатель означает, что Opus 4.5 справляется с задачами такой длительности (измеренной в человеко-часах работы) с вероятностью 50%. Предыдущий лидер, GPT-5.1-Codex-Max от OpenAI, держался на отметке 2 часа 53 минуты.

У GPT-5.1-Codex-Max буквально месяц назад был результат порядка 2 часов 40 минут, интересный прирост из ниоткуда.

А так, интересно. METR запостили результаты для GPT-5.1-Codex-Max, которые были ниже ожидаемых, и "отменили" свое предсказание "временной горизонт удваивается каждые 4 месяца", пошли волнения по этому поводу (на хабре даже статья была), и тут РАЗ - не совсем прозрачным образом у старых моделей в большинстве своем выросли результаты (да, даже старички типа Sonnet 3.7 и Sonnet 4 прибавили), так ещё и Opus 4.5 показывает конские результаты (правда, на других бенчмарках это не очень-то и заметно). Учитывая вдобавок, сколько раз METR попадались на ИИ-бустеризме, я очень уж заподазриваю тут откровенный буллщит, по типу того, что был с GPT-5.

Есть и ещё один нюанс. При более строгом пороге — 80% успеха — горизонт Opus 4.5 падает до 27 минут. Это примерно столько же, сколько у GPT-5.1-Codex-Max и других недавних моделей. Рекордные 5 часов достигаются только при 50%-ной надежности: модель может вытянуть сложную задачу, а может и провалить. Opus 4.5 способен на прорывы, но стабильнее предшественников он не стал.

Правильней было бы сказать "Это примерно столько же, сколько у GPT-5". В данной категории у Opus 4.5 верхняя граница доверительного интервала выше (т.е. лучше) чем у GPT-5, нижняя граница - ниже (т.е. хуже), а итоговая оценка такая же. Откуда тогда более чем двухкратное преимущество для 50% успеха - та ещё загадка.

Впрочем, критики указывают на ограничения методологии METR: в релевантном диапазоне 1–4 часа всего 14 задач, а их тематика смещена в сторону кибербезопасности и ML-кода.

Странные критики, конечно, которые не задают более жестких вопросов, например, по поводу RE-Bench (это 7 задач, каждая весит по 8 часов и используется в оценке временного горизонта. При этом все 7 задач лежат в открытом доступе); как-то перестали METR выкладывать какие-либо отчеты касательно производительности на этом наборе задач, хотя раньше отдельно прикрепляли. Да и касательно обработки попыток с потенциальным reward hacking тоже имеются вопросы.

Организация обещает обновить тестовый набор, чтобы точнее измерять прогресс в будущем.

METR многое обещали. Выпустили они в ноябре 2024 года статью про RE-Bench, где отметили, что агенты часто создают оверфитнутые решения, а бенчмарк рассматривает их как полностью валидные, так что надо это поправить, даже потенциальные решения предложили. Прошло больше года, а воз, судя по всему, и ныне там. Ну не любит METR делать правки, которые могут привести к снижению временного горизонта.

horses 25 дек 2025 в 05:06

Выглядит ка рейтинг ради рейтинга. И даже страшно спросить у claude сколько это стоило. Это же одна из самых дорогих нейронок.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий