Как стать автором
Поиск
Написать публикацию
Обновить

OpenAI представила новый голосовой ИИ

Время на прочтение1 мин
Количество просмотров8.3K

OpenAI провела презентацию Realtime API — обновленной платформы для создания голосовых приложений. Ключевым апдейтом API стала gpt-realtime — новая speech-to-speech модель, специально обученная понимать речь, не переводя ее в текст. Благодаря такому подходу голосовой ассистент быстрее отвечает и реже перебивает пользователя. Также новинка понимает интонацию пользователя, распознает разные эмоции (смех, грусть) и сама имитирует их. Модель многоязыковая и способна переключаться между языками на ходу.

В ходе демонстрации OpenAI показали несколько сценариев. В одном модель рассказала стих с интонацией, на ходу переключаясь между несколькими языками. В другом — сыграла роль голосового ассистента техподдержки, вежливо отвечая слишком настойчивому клиенту.

Gpt-realtime поддерживает работу с изображениями, может анализировать их и учитывать полученную информацию в диалоге с пользователем. Также добавлена поддержка MCP, с помощью которой пользователи смогут предоставлять модели доступ к нужной информации — например, базам данных или документации. Gpt-realtime обучена поддерживать диалог во время поиска с помощью MCP, чтобы в разговоре не было долгих пауз.

Пока известно только о запуске модели в API по цене в $32 за миллион входящих токенов и $64 — за миллион исходящих (а также $0,40 за миллион кэшированных токенов). О планах обновить голосового ассистента в ChatGPT на данный момент не сообщалось.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Теги:
Хабы:
+3
Комментарии5

Другие новости

Ближайшие события