Pull to refresh

Comments 3

TL;DR: Чтобы экономить токены - используйте дешевые модели, а не дорогие модели. Пишите текст для модели, а не для себя.

SpecDriven -> RAG -> Caveman.

/thread

А, ну и не забудьте на телегу подписаться, а то у автора ребенка украдут.

P.S. - Теги - 1с. Теперь и 1C на LLM будут писать? Куда еще хуже-то?

Хороший список. Я бы только считал экономию не только в токенах на запрос, а в стоимости завершенного полезного действия. В чатах и агентах легко урезать контекст и получить дешевый ответ, который потом ведет к еще двум уточнениям или ручной правке.

В проде я бы держал рядом три метрики: cost per successful task, долю повторных запросов из-за плохого ответа и latency до результата. Тогда становится видно, где экономить безопасно: маршрутизация простых задач на дешевую модель почти всегда окупается, а вот агрессивное сжатие памяти или истории может съесть выгоду качеством.

Для voice/chat-продуктов это особенно заметно: один длинный, но точный feedback иногда дешевле трех коротких реплик, после которых пользователь все равно не понял, что исправить.

Sign up to leave a comment.

Articles