Gemini 3.1 Flash TTS: Google представила новую модель синтеза речи с управлением через текст

Голосовые модели постепенно уходят от простого «озвучить текст» к более управляемым сценариям, где важны интонация, темп и поведение в диалоге. В новом релизе Gemini 3.1 Flash TTS Google делает акцент именно на этом: разработчику дают инструменты, чтобы задавать подачу речи прямо в тексте и управлять голосом на уровне сценария. Разбираемся, что именно добавили, как это работает и где такие возможности могут быть полезны на практике.









