python_leader18 апр в 10:48

Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

Простой

8 мин

12K

Natural Language Processing * Искусственный интеллектМашинное обучение * Программирование *

Аналитика

Перевод

Комментарии 10

Sap_ru 18 апр в 11:17

Возможно, что именно в плане заглавных букв токенайзер и затюнили. Он же не симметричный, помнится, был. Сделали больше варинатов заглавными буквами с лучшим розбиением по словам ("Germany" можно же, условно, закодировать, как "G-er-man-y" или как "Ger-man-y"), чтобы модель не путалась.

akod67 18 апр в 11:57

Перешёл на связку Опус 4.7 пишет планы, Codex 5.4 их исполняет, Опус принимает отчёт и доделывает то, что находит. Одним Опусом 5x стало невозможно пользоваться, улетает в лимиты очень быстро.

Onito 18 апр в 21:14

Подскажите, какой тариф для гпт 5.4 используете и как у кодекса вообще с лимитами? И ещё вопрос: про быстрое сжигание лимитов опусом я слышал, а вот что на счет соннет или хайку?

akod67 19 апр в 05:04

и там и там 5x у меня. Кодекс купил недавно, когда психанул от сожранных клодом лимитов за 1 час в двух окнах (легаси перегонял через планы и их имплементацию, объёмно по токенам, но раньше в таком режиме часа 3-4 спокойно он работал). В общем кодексом я и за день на имплементации планов лимит не выжрал. Но на одном кодексе сидеть не хочу, всё таки ощущается, что временами он тот ещё “художник”. Но и опус подслеповат. Вот вместе в связке они довольно хорошо разгребают спагетти в легаси.

Конкретно в таком режиме не вижу смысла пользоваться не топовыми моделями, мне результат нужен с минимальным количеством итераций.

ddmitry 23 апр в 08:35

Как оркестрируете работу план/исполнение? Руками передаете задачу между агентами?
Не дешевле было бы x20 у Клода взять, и находиться в одной экосистеме?
Сам решаю похожую задачу, но пока откатился на 4.6, и Кодекс делаю ревью на Плюс плане

akod67 23 апр в 09:51

Да, всё равно их без присмотра не оставишь, то вопросы при планировании задают, то при исполнении что-то “порешать” по ходу дела надо, если видишь, что заносит в рассуждения, где ответ тебе и так очевиден и надо прервать и вправить мозги. А запустив одновременно 2-3 таких процесса, уже сидишь фултайм в терминалах. Зато так деливерятся фичи очень быстро и сразу в достаточно неплохом состоянии, потом ещё пару итераций правок и можно пускать далее.

На счёт 20х не знаю, наверное хватило бы, но 1) люблю экспериментировать 2) не люблю, когда заламывают руки 3) сервера антропика пару недель назад работали нестабильно и вопрос стоял уже не в лимитах, а в доступности сервиса. Не руками же теперь кодить, если офлайн =)

ddmitry 23 апр в 10:15

Могу посоветовать - довольно неплохо доводит планы Опуса, как совмещение двух миров. Тем более что сейчас доделал запуск ревьюера Кодекса через субагента - перестал токены жрать в основной сессии https://habr.com/ru/articles/1019588/

akod67 23 апр в 11:29

Спасибо. Плюсанул бы, но хабр не прощает ЛЛМ евангелизма =)

viktdo 19 апр в 05:44

Замеры в точку, у нас похожая картина на продакшен-нагрузке: на русскоязычных промптах (саппорт-боты, длинные системные инструкции) рост около 1.4x, на коде ближе к 1.3x. Для тех, кто упирается в бюджет — помогает чуть агрессивнее включать prompt caching на system-части и few-shot примерах; на повторяющихся цепочках компенсирует почти весь прирост токенов. А вот +5 п.п. на IFEval при таком росте стоимости — действительно тяжело оправдать, если задача не требует строгого следования формату. Было бы интересно увидеть замеры ещё и по latency на одинаковых задачах.

Jacov911 19 апр в 07:33

Это пресловутое более точное следование инструкциям пока не ощущается. А вот что ощущается: игнорирование частички "не" и восприятие негативных промптов как позитивных

Зарегистрируйтесь на Хабре, чтобы оставить комментарий