Как стать автором
Обновить

Комментарии 6

Несовершенны как раз системы распознавания.
А вот системы синтезирования, у того же гугла, слабо отличаются от средне-проффесиональных записей уже.
Недостаток данного подхода — голос распознается с задержкой от 3 секунд.
Более коректно исспользовать EAGI и google GRPC, распознается без задержки на лету.
Обычно уходит примерно секунда на распознавание. Системы, которые распознают на лету, а не предварительно записывают удобны, но и стоят ощутимо больше при этом. При этом несут в себе всё те же задержки из-за интернета.
Как раз синтезирование гугла и пробовал. Синтез названия компании и некоторых фамилий вызывает желание посмеяться, но не желание использовать гугл для озвучивания фраз.
Секунда + время записи. Это если у пользователя нет шума. Если есть — ваш подход вообще не прекращает запись.
Google cloud recognition упомянутый вами в статье стоит одинаково в версии streaming и post.
Не совсем так. Пишется указанное количество секунд и отправляется на сервер. В конкретном примере — 3 секунды. Этого хватает, чтобы назвать любого сотрудника.
афигеть — это ж сколько это говнище от диалоджика проработало? я с такими еще 12 лет назад работал :)
11 лет примерно. И дальше бы работало, но материнская плата подвела.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории