Обновить

Комментарии 17

да нечнется self-improving ai

Вот бы ее лимиты в веб версии спустя 3 запроса не иссякали - цены бы ей не было

Ну по моему опыту 3 запроса это 150-200к токенов. Вполне неплохо для такой крупной модели, а если не давать опусу генерировать тонну не нужной фигни, как он это любит, хватит и на больше запросов

НЛО прилетело и опубликовало эту надпись здесь

Ничего себе у Вас запросы. Не знаю, как там считаются токены, в ai studio чтобы gemini pro использовал 150-200к, ему надо достаточно много скормить и получить от него. При этом, еще и бесплатно. Понятно, что уровень разный, но всё же о токенах речь. А opus жрёт как не в себя. «На глаз» те же 150-200к(в gemini pro эквиваленте) это контекст чата, который заканчивается, кстати, внезапно без предупреждения. А вот отправляет «отдыхать» он в рамках этого чата 10+ раз

так реально, она с третьего запроса более менее даёт результат профитный в сложных задачах, но то что лимит сразу на пять часов это конечно прикольно

при том что лимит на все модели распространяется

На все модели это вообще не удобно и по сути вынуждают пользоваться средней моделью, а opus с такими лимитами бесполезен

Нет чтобы давать лимит в токенах на месяц. А то бывает что сильно контекста нехватает, а иногда неделю даже не пользуешься.

Чё то эти + 1-2% в стерильных бенчмарках не особо впечатляют уже..

На самом деле разница в бенчмарке между 98% и 99% может быть большой, а между 99% и 99.5% ещё больше влияет в реальных задачах, сужу по опыту в Computer Vision задачах. Но между 73 и 74 согласен, как будто можно было и не обновлять, хотя может я и не прав и там 2% очень сложных задач, а последние так вообще нереальные, но кто знает, не видел распределений задач по сложности и статистики какие задачи закрываются, а с какими не справляется. Спасибо конечно, если реально лучше стало, но пользы от опенсорс модели уровня сравнимого с o3, пусть и обученной только на английском, в разы больше.

Выглядит как релиз для релиза, просто чтобы вместе с конкурентами выпуск сделать, странно, что Гугл ничего на этой почве не выпустил, видимо GPT-5 ждут.

Смотря с какой стороны смотреть на эти проценты. В старой модели 27.5% ошибок, в новой - 25.5%. Значит, новая модель на 8% опережает старую по "безошибочности" (27.5/25.5). Так лучше выглядит?

Бенчмаркинг на выученных данных никого кроме маркетологов не интересует. Тут был где-то бенчмарки на новых ишьюсах из гитхаба, вот это показатель.

Хм.. Клод соннет стал тупее в последний месяц. Похоже и его готовят к апгрейду

Подтверждаю. В момент выхода в течение месяца решал сложные задачи, после чего его очень заметно "оптимизировали". Так что есть пара недель, пока 4.1 не скатится к уровню 3-ей

Не знаю зачем оно, мне квин 3 кодера хватает за глаза.

Протестировал - улучшение по ответам процентов на 10-15, но существенной разницы с sonnet не увидел, последний как будто тоже немного "поумнел". Был бы смысл от этой модели, если после окончания лимитов можно было перейти на sonnet. После исчерпания лимитов (которых с "гулькин нос") вся система на 5 часов становится бесполезной, причем отправить тебя может на отдых в любой, самый неподходящий момент.

Что твоя на 4 версии не увидел прирос от использования, даже тупее была. Пришлось отказаться

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости