Как стать автором
Обновить
47.81

OpenAI выкатили в API три новые аудио-модели

🔷 Первые две – speech2text. Лучше Whisper, и вообще заявляют SOTA, которые к тому же хорошо работают с акцентами, шумом и быстрой речью.

Отличие между двумя – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆

🔷 Третья моделька – gpt-4o-mini-tts – позанятнее. Это, наоборот, text2speech, то есть модель, проговаривающая текст. Но не просто проговаривающая, а с той интонацией и тем голосом, которые зададите вы. Поиграться уже можно здесь

🔷 Ну и новая либа для агентов Agents SDK теперь тоже поддерживает аудио, так что с этого дня там можно создавать говорящих агентов.

В своём телеграм-канале я публикую эти самые новости раньше всех. А ещё регулярно даю глубокую аналитику по отрасли и всем событиям, рассказываю как создавать собственных ИИ-агентов и приложения с ИИ. И много других интересных непотребств. Велком!

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Публикации

Информация

Сайт
t.me
Дата регистрации
Дата основания
Численность
2–10 человек
Местоположение
Россия