Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью / Хабр

Google представила два новых режима работы в Gemini API — Flex и Priority. Они позволяют разработчикам выбирать, что важнее для конкретного запроса: минимальная стоимость или максимальная надёжность. Главное изменение в том, что теперь и фоновые, и критичные пользовательские задачи можно обслуживать через один и тот же синхронный интерфейс, без отдельной асинхронной логики через Batch API.

Flex Inference — это новый экономичный режим для задач, где не нужна мгновенная реакция. Google заявляет, что он даёт до 50% экономии по сравнению со Standard API, но за счёт этого запросы получают меньший приоритет, могут выполняться медленнее и обслуживаться менее стабильно. Такой режим предлагают использовать для фоновых процессов: суммаризации больших объёмов текста, CRM-обновлений, исследовательских прогонов и агентных сценариев, где модель «думает» в фоне.

Priority Inference, наоборот, рассчитан на критичные сценарии — например, пользовательские чатботы, модерацию в реальном времени и другие latency-sensitive задачи. В этом режиме запросы получают более высокий приоритет. Если нагрузка превышает лимиты Priority, запросы не падают с ошибкой, а автоматически уходят в Standard tier. Google подаёт это как механизм для сохранения работоспособности приложения даже в пиковые моменты.

Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее.

Технически всё выглядит довольно просто: разработчику достаточно указать параметр service_tier в запросе. При этом в ответе API можно увидеть, какой именно tier реально обслужил вызов, что полезно и для мониторинга, и для контроля биллинга.

На практике это выглядит как шаг в сторону более зрелой эксплуатации Gemini API. Пока LLM-сценарии были в основном про чат и генерацию, стандартного режима хватало. Но по мере роста агентных систем появляется заметно больше разнотипной нагрузки: где-то важна цена, где-то — отказоустойчивость, а где-то — предсказуемое поведение без отдельного оркестратора асинхронных задач. Новые режимы Google как раз пытаются закрыть этот разрыв.

Вывод: здесь интереснее всего не сам факт появления ещё двух “тарифов”, а то, что Google фактически добавляет в Gemini API более явную модель управления production-нагрузкой: дешёвый режим для фона и приоритетный режим для критичных путей. Для разработчиков, которые строят агентов, copilots или внутренние корпоративные сценарии, это уже вполне прикладной апдейт, а не просто маркетинговое обновление.

Источник

В канале NH | Новости технологий, AI и будущее публикуем новости AI, полезные сервисы, автоматизацию и материалы о практическом применении нейросетей. Если нужна зарубежная карта для оплаты сервисов, отдельный разбор можно почитать здесь.