В 3-4 раза дешевле и быстрее Claude 4.5 Haiku: вышла Gemini 3.1 Flash-Lite / Хабр

Google представил Gemini 3.1 Flash-Lite — самую дешевую и быструю модель линейки Gemini 3. Стоимость — $0,25 за миллион входных токенов и $1,50 за миллион выходных. Для сравнения: Claude 4.5 Haiku стоит $1,00 и $5,00 соответственно, а GPT-5 mini — $0,25 и $2,00. Модель уже доступна в превью через Google AI Studio и Vertex AI.

По скорости генерации Flash-Lite выдаёт 363 токена в секунду — против 108 у Claude 4.5 Haiku и 71 у GPT-5 mini, по данным бенчмарка Artificial Analysis. Время до первого токена — в 2,5 раза меньше, чем у предыдущей Gemini 2.5 Flash. При этом модель не только быстрая: на GPQA Diamond (научные рассуждения) она показала 86,9% — у Claude 4.5 Haiku 73,0%, у GPT-5 mini 82,3%. На MMMU Pro (мультимодальное понимание) — 76,8% против 58,0% у Claude 4.5 Haiku.

Отдельно стоит отметить результаты в генерации кода: на LiveCodeBench Flash-Lite набрала 72,0%, что заметно выше Claude 4.5 Haiku (53,2%) и почти вдвое больше, чем у Gemini 2.5 Flash-Lite (34,3%). На рейтинге Arena.ai модель получила Elo 1432 — и по ряду бенчмарков превзошла даже более крупную Gemini 2.5 Flash.

Flash-Lite поддерживает настраиваемые уровни «мышления» (thinking levels) — разработчик может выбирать глубину рассуждения в зависимости от задачи: от легкой классификации и модерации контента до генерации интерфейсов и симуляций. Компании Latitude, Cartwheel и Whering уже используют модель в раннем доступе. Релиз продолжает стратегию Google по агрессивному снижению цен: если Gemini 3 Flash стоит $0,50/$3,00, а 3 Pro — $2,00/$12,00, то Flash-Lite обещает стать рабочей моделью для массовых конвейеров, где каждый токен на счету.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.