
В почтовом клиенте Яндекса появилась функция распознавания речи и перевода её в текст, а также озвучивания входящих сообщений. К исходящему письму на всякий случай можно прикрепить запись собственного голоса.
24 сентября облачная платформа Yandex.Cloud проведёт третью большую конференцию про облачные технологии — Yandex Scale. В этом году в онлайн-формате и абсолютно бесплатно для всех желающих, достаточно только зарегистрироваться. Сегодня я расскажу про основные треки и анонсы нашей конференции. Stay tuned и поехали.
Yandex Cloud обновила свой сервис для синтеза и распознавания речи на базе машинного обучения Yandex SpeechKit. Теперь он может при переводе голоса в текст расставлять знаки препинания. Это поможет в тех областях, где с речевыми технологиями человек должен взаимодействовать напрямую. К примеру, в общении с голосовым помощником, автоматическом транскрибировании или формировании субтитров.
Этим летом я участвовал в разработке бота Datatron, предоставляющего доступ с открытыми финансовыми данными РФ. В какой-то момент я захотел, чтобы бот мог обрабатывать голосовые запросы, и для реализации этой задачи решил использовать наработками Яндекса.
За последнее время значимость голосовых функций и звука значительно выросла. Примером тому может служить уже громкая история запуска приложения Clubhouse, голосовых ассистентов Сбера и общего оживления интереса со стороны пользователей, компаний и инвесторов к звуку на мобильных устройствах.
На мой взгляд, звук как интерфейс между пользователем и приложениями, изначально был недооценен, однако с появлением технологий искусственного интеллекта, высокой информационной нагрузки и нехватки времени, польза аудио становится очевиднее.
В этой статье я бы хотел рассмотреть пример разработки голосового помощника на платформе iOS, используя язык Swift.
Довольно давно Яндекс предоставляет платные сервисы по синтезу и распознанию речи. К сожалению, интерфейса для регулярного использования сервисов нет, поэтому на досуге написал скрипт, который позволяет через консоль отправлять запросы и получать результаты.
Вчера понадобилось мне записать голос для голосового (IVR) меню. Решил воспользоваться голосами от яндекс.облака, тем более что они теперь все высококачественные, и от человеческого неотличимы. Но как бы это сделать поудобнее, чтобы не надо было потом редактировать и конвертировать? Казалось бы, можно воспользоваться демкой на странице описания, но во первых там есть ограничение длины текста, во вторых она дает сохранить только запись в формате ogg, и в третьих иногда добавляет в запись рекламу. Оно и понятно в общем то, эта демка предназначена для показа технологии а не для коммерческого использования.
Резюме - надо получать записи как положено, через api, тем более что оно простое и понятное, только небольшая сложность с авторизацией. Но то что оно несложное не значит что им можно легко и просто с нуля воспользоваться, нужен хоть какой то интерфейс.
Беглый гуглёж ничего не принес, только несколько малопонятных проектов на гитхабе.
Уже думал быстренько наваять какой нибудь свой веб-интерфейс но тут вспомнил что есть Postman. Для тех кто не в теме - это замечательная программа для тестирования любых api интерфейсов.
Под катом - как настроить Postman для преобразования текста в речь.