Comments 3
Огонь!
TL;DR: Чтобы экономить токены - используйте дешевые модели, а не дорогие модели. Пишите текст для модели, а не для себя.
SpecDriven -> RAG -> Caveman.
/thread
А, ну и не забудьте на телегу подписаться, а то у автора ребенка украдут.
P.S. - Теги - 1с. Теперь и 1C на LLM будут писать? Куда еще хуже-то?
Хороший список. Я бы только считал экономию не только в токенах на запрос, а в стоимости завершенного полезного действия. В чатах и агентах легко урезать контекст и получить дешевый ответ, который потом ведет к еще двум уточнениям или ручной правке.
В проде я бы держал рядом три метрики: cost per successful task, долю повторных запросов из-за плохого ответа и latency до результата. Тогда становится видно, где экономить безопасно: маршрутизация простых задач на дешевую модель почти всегда окупается, а вот агрессивное сжатие памяти или истории может съесть выгоду качеством.
Для voice/chat-продуктов это особенно заметно: один длинный, но точный feedback иногда дешевле трех коротких реплик, после которых пользователь все равно не понял, что исправить.
Экономный ИИ. 12 способов снизить расходы (токенов/на токены)