По данным The Information, OpenAI представила некоторым клиентам новую мультимодальную модель искусственного интеллекта, которая способна общаться и распознавать объекты.
Она предлагает более быструю и точную интерпретацию изображений и аудио, чем существующие модели транскрипции и преобразования текста в речь. Потенциально модель может использоваться в работе служб поддержки, так как она позволит «лучше понимать интонацию голосов звонящих».
Источники утверждают, что модель может превзойти GPT-4 Turbo в «ответах на некоторые типы вопросов», но всё же склонна к ошибкам.
Возможно, OpenAI также готовит новую встроенную опцию ChatGPT для телефонных звонков. Разработчик Ананай Арора опубликовал скриншоты с кодом, связанным с вызовами. По его словам, OpenAI предоставила серверы, предназначенные для аудио- и видеосвязи в реальном времени.
Генеральный директор OpenAI Сэм Альтман отрицает, что компания представит улучшенную версию GPT-4. По данным The Information, GPT-5 может выйти уже к концу года.
Презентация OpenAI пройдёт 13 мая.
Ранее сообщалось, что компания работает над новой функцией для ChatGPT, которая позволит осуществлять веб-поиск с последующим цитированием источников.