Google внедряет функцию в свой API Gemini, которая, по утверждению компании, сделает ее новейшие модели AI более дешевыми для сторонних разработчиков. Google называет эту функцию «скрытым кэшированием» и утверждает, что она может обеспечить 75% экономии на «повторяющемся контексте», передаваемом моделям через API Gemini.

Она поддерживает модели Gemini 2.5 Pro и 2.5 Flash от Google (напоминаем, что при желании ими вы можете воспользоваться перейдя на BotHub по реферальной ссылке).Это, вероятно, станет приятной новостью для разработчиков, поскольку стоимость использования пограничных моделей продолжает расти.
Кэширование, широко распространенная практика в индустрии AI, повторно использует часто используемые или предварительно вычисленные данные из моделей, чтобы сократить требования к вычислениям и стоимость. Например, кэши могут хранить ответы на вопросы, которые пользователи часто задают модели, устраняя необходимость для модели повторно создавать ответы на тот же запрос.
Google ранее предлагал кэширование подсказок модели, но только явное кэширование подсказок, что означало, что разработчикам приходилось определять свои наиболее часто используемые подсказки. Хотя предполагалось, что экономия средств будет гарантирована, явное кэширование подсказок обычно требовало много ручной работы.
Некоторые разработчики были недовольны тем, как работает реализация явного кэширования Google для Gemini 2.5 Pro, что, по их словам, может привести к удивительно большим счетам API. Жалобы достигли апогея на прошлой неделе, что побудило команду Gemini извиниться и пообещать внести изменения.
В отличие от явного кэширования, неявное кэширование является автоматическим. Включенное по умолчанию для моделей Gemini 2.5, оно передает экономию затрат, если запрос API Gemini к модели попадает в кэш.
«Когда вы отправляете запрос в одну из моделей Gemini 2.5, если запрос имеет тот же префикс, что и предыдущие запросы, то он имеет право на кэширование», — пояснила Google в своем блоге. «Мы динамически передадим вам сэкономленные средства».
Минимальное количество токенов запроса для неявного кэширования составляет 1024 для 2.5 Flash и 2048 для 2.5 Pro, согласно документации разработчика Google, что не является слишком большим количеством, а значит, не должно потребоваться много времени для запуска этих автоматических сбережений. Токены — это необработанные биты моделей данных, с которыми работают, при этом тысяча токенов эквивалентна примерно 750 словам.
Учитывая, что последние заявления Google об экономии затрат за счет кэширования не оправдались, в этой новой функции есть несколько областей, на которые покупателям следует обратить внимание. Например, Google рекомендует разработчикам сохранять повторяющийся контекст в начале запросов, чтобы увеличить вероятность неявных попаданий в кэш. Контекст, который может меняться от запроса к запросу, следует добавлять в конце, заявляет компания.
Во-вторых, Google не предоставила никакой сторонней проверки того, что новая система неявного кэширования обеспечит обещанную автоматическую экономию. Так что посмотрим, что скажут ранние последователи.