Комментарии 17
да нечнется self-improving ai
Вот бы ее лимиты в веб версии спустя 3 запроса не иссякали - цены бы ей не было
Ну по моему опыту 3 запроса это 150-200к токенов. Вполне неплохо для такой крупной модели, а если не давать опусу генерировать тонну не нужной фигни, как он это любит, хватит и на больше запросов
Ничего себе у Вас запросы. Не знаю, как там считаются токены, в ai studio чтобы gemini pro использовал 150-200к, ему надо достаточно много скормить и получить от него. При этом, еще и бесплатно. Понятно, что уровень разный, но всё же о токенах речь. А opus жрёт как не в себя. «На глаз» те же 150-200к(в gemini pro эквиваленте) это контекст чата, который заканчивается, кстати, внезапно без предупреждения. А вот отправляет «отдыхать» он в рамках этого чата 10+ раз
так реально, она с третьего запроса более менее даёт результат профитный в сложных задачах, но то что лимит сразу на пять часов это конечно прикольно
при том что лимит на все модели распространяется
Нет чтобы давать лимит в токенах на месяц. А то бывает что сильно контекста нехватает, а иногда неделю даже не пользуешься.
Чё то эти + 1-2% в стерильных бенчмарках не особо впечатляют уже..
На самом деле разница в бенчмарке между 98% и 99% может быть большой, а между 99% и 99.5% ещё больше влияет в реальных задачах, сужу по опыту в Computer Vision задачах. Но между 73 и 74 согласен, как будто можно было и не обновлять, хотя может я и не прав и там 2% очень сложных задач, а последние так вообще нереальные, но кто знает, не видел распределений задач по сложности и статистики какие задачи закрываются, а с какими не справляется. Спасибо конечно, если реально лучше стало, но пользы от опенсорс модели уровня сравнимого с o3, пусть и обученной только на английском, в разы больше.
Выглядит как релиз для релиза, просто чтобы вместе с конкурентами выпуск сделать, странно, что Гугл ничего на этой почве не выпустил, видимо GPT-5 ждут.
Смотря с какой стороны смотреть на эти проценты. В старой модели 27.5% ошибок, в новой - 25.5%. Значит, новая модель на 8% опережает старую по "безошибочности" (27.5/25.5). Так лучше выглядит?
Бенчмаркинг на выученных данных никого кроме маркетологов не интересует. Тут был где-то бенчмарки на новых ишьюсах из гитхаба, вот это показатель.
Хм.. Клод соннет стал тупее в последний месяц. Похоже и его готовят к апгрейду
Не знаю зачем оно, мне квин 3 кодера хватает за глаза.
Протестировал - улучшение по ответам процентов на 10-15, но существенной разницы с sonnet не увидел, последний как будто тоже немного "поумнел". Был бы смысл от этой модели, если после окончания лимитов можно было перейти на sonnet. После исчерпания лимитов (которых с "гулькин нос") вся система на 5 часов становится бесполезной, причем отправить тебя может на отдых в любой, самый неподходящий момент.
Что твоя на 4 версии не увидел прирос от использования, даже тупее была. Пришлось отказаться

Выпущен Claude Opus 4.1 — модель стала еще лучше в программировании