men1057710 ноя 2025 в 23:17

Prompt Caching в Claude: Как мы снизили затраты на AI в 2 раза

Средний

8 мин

13K

Искусственный интеллектВеб-разработка * Python *

Из песочницы

Комментарии 6

rPman 11 ноя 2025 в 04:11

Как внезапно, самая дорогая IT технология современности оказывается не дешевой в использовании.

А потом (надеюсь вы так не сделаете) у сервиса появляется соблазн подставить модель по глупее, поставить роутер (привет openai chatgpt5) и по разумению дешевой модели решать, глупый и дешевый ИИ будет отвечать или дорогой но по умнее.

А потом, попользовавшись тупым ИИ (в описании сервиса будут красивые буковки типа топовый ИИ только у нас...) пользователь пойдет по чатам с криками 'ваш ИИ тупой это просто база данных' (естественно, обвешают тупой ИИ RAG, и думают а что это у нас ничего не получается), 'у него одни галлюцинации!'.

men10577 11 ноя 2025 в 19:29

нет, этой дорогой не пойду)
Все-таки в приоритете учиться делать хорошо. Но сейчас нашли решение немного снизить стоимость на модели Haiku, но предварительно тесты провели, чтобы убедиться в том, что качество скоринга не пострадает. Погрешность оказалась менее 10%.

men10577 11 ноя 2025 в 19:33

вообще да, очень дорогое удовольствие качественные ответы нейронок...)

LuckyJewish 13 ноя 2025 в 07:18

Слава богу, антропик работают на совесть. Да, малые лимиты на пользовательской подписке в отличие от Чата, где запросы фактически безлимитны, но зато gpt5 тупая и тратит минимум ресурсов, а thinking думает так медленно, что, видимо, тоже не особо нагружает инфраструктуру. А качественной универсальной модели и склонности к агентному поведению - нет

men10577 13 ноя 2025 в 11:15

У меня подписка за 200$, пару раз только недельные лимиты получилось перейти, хотя в CLI агенты постоянно что-то пишут

Tihon49 11 ноя 2025 в 20:33

Круто! Поставил бы up, да кармы не хватает ))) ну и дайте код поревьюить ;)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий