OpenAI представила новый голосовой ИИ / Хабр

OpenAI провела презентацию Realtime API — обновленной платформы для создания голосовых приложений. Ключевым апдейтом API стала gpt-realtime — новая speech-to-speech модель, специально обученная понимать речь, не переводя ее в текст. Благодаря такому подходу голосовой ассистент быстрее отвечает и реже перебивает пользователя. Также новинка понимает интонацию пользователя, распознает разные эмоции (смех, грусть) и сама имитирует их. Модель многоязыковая и способна переключаться между языками на ходу.

В ходе демонстрации OpenAI показали несколько сценариев. В одном модель рассказала стих с интонацией, на ходу переключаясь между несколькими языками. В другом — сыграла роль голосового ассистента техподдержки, вежливо отвечая слишком настойчивому клиенту.

Gpt-realtime поддерживает работу с изображениями, может анализировать их и учитывать полученную информацию в диалоге с пользователем. Также добавлена поддержка MCP, с помощью которой пользователи смогут предоставлять модели доступ к нужной информации — например, базам данных или документации. Gpt-realtime обучена поддерживать диалог во время поиска с помощью MCP, чтобы в разговоре не было долгих пауз.

Пока известно только о запуске модели в API по цене в $32 за миллион входящих токенов и $64 — за миллион исходящих (а также $0,40 за миллион кэшированных токенов). О планах обновить голосового ассистента в ChatGPT на данный момент не сообщалось.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.