В мае в ходе анонса GPT-4o OpenAI объявила, что голосовой режим ChatGPT будет использовать аудиовозможности модели для обеспечения общения с пользователями практически без задержек. Теперь эту опцию открывают для подписчиков ChatGPT Plus.
Команда OpenAI описала голосовые возможности GPT-4o следующим образом: «С помощью GPT-4o мы обучили одну новую модель сквозному распознаванию текста, изображений и звука, а это означает, что все входы и выходы обрабатываются одной и той же нейронной сетью».
В июне OpenAI объявила, что отложит внедрение расширенного голосового режима на месяц. Компания отметила, что ей требуется больше времени для улучшения способности модели обнаруживать и отклонять определённый контент. Кроме того, компания готовит свою инфраструктуру к масштабированию, чтобы сохранить скорость получения ответов.
Теперь генеральный директор OpenAI Сэм Альтман подтвердил, что альфа-версия голосового режима появится на следующей неделе у подписчиков ChatGPT Plus.
Текущий голосовой режим в ChatGPT работает с задержками в 2,8 секунды у GPT-3.5 и в 5,4 секунды у GPT-4.
Модель GPT-4o способна реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, общается голосом «как человек», меняя интонации, и запоминает все беседы с пользователем.
Между тем французский ИИ-стартап Kyutai представил голосового помощника Moshi, который превосходит ChatGPT по своим возможностям. ИИ способен обрабатывать запросы и отвечать на них без временных задержек. Moshi способен общаться с использованием 70 разных эмоций и акцентов.