Пост @Raicon — Программирование

26 июн в 05:454.5K

Программирование * Машинное обучение * Исследования и прогнозы в IT * Искусственный интеллектNatural Language Processing *

Пока писал статью про Context Engineering, то дополнительно решил изучить вопрос, который был на хайпе 3 месяца назад

Реально ли Caveman Output Style экономит токены для агентов

Суть

Несколько месяцев назад расхайпилась казалось бы очевидная идея: если заставить модель отвечать коротко, то можно сэкономить много output-токенов

Одна таких реализаций — репо Caveman, который заставляет модель говорить как пещерный человек. Целых 77к звезд

Вот как пример

Обычный ответ модели

The reason your React component is re-rendering is likely because you're creating a new object reference on each render cycle. When you pass an inline object as a prop, React's shallow comparison sees it as a different object every time, which triggers a re-render. I'd recommend using useMemo to memoize the object

Ответ в стиле Caveman

New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo

Ну и как следствие, обещания автора

Faster response — less token to generate = speed go brrrEasier to read — no wall of text, just the answerSame accuracy — all technical info kept, only fluff removedSave money — ~71% less output token = less cost

Этот репозиторий очень сильно расхайпился — и основная суть всех новостей была в том, что с этим стилем теперь можно тратить на 40-70% меньше output токенов — который самые дорогие

Чтобы лучше понять механизм потенциальной экономии, нужно посмотреть, где агентные системы по типу CLAUDE CODE | CODEX вообще генерируют OUTPUT токены

1. Обычный ответ, который видите вы
2. THINKING блоки, которые вы можете не видеть
3. Генерация кода / схем, которые нельзя сжать
4. Вызов Tools + Цикл tool call → result → next message

В случае выбора любого OUTPUT стиля мы влияем только на пункт 1 — Обычный ответ, который видите вы

И, насколько мы все тут знаем — то, что модель выдает нам как результат ответа — в среднем ~5-10% от всех OUTPUT токенов

Ну так вот

Я по приколу сделал мини эксперимент, где взял 3 варианта Output Style's и прогнал на 5 разных задачах

1 стиль — Caveman Light (Original skill из репозитория выше)
2 стиль — Explanatory. Стиль, который наоборот, старается объяснять как можно подробнее. Я его сам всегда использую — объясняет свои решения и делится инсайтами.
3 стиль — Самописный True Caveman. Который должен общаться прям как настоящий пещерный человек

Инсайт, что строгий промптинг для True Caveman стал самым дорогим. И я думаю из-за того, что Thinking блоки заставляли модель постоянно себя перепроверять, говорит ли она в данный момент как True Caveman или нет. Так как ее это делать не учили.

Статью я написал на своем сайте, так как там много графики и элементов используется, которые на хабре не работают

Ссылка на статью на сайте, там подробно про этот эксперимент и реально ли это что-то экономит

Я несколько дней на это потратил 🥺