Pull to refresh

Comments 15

вообще, хабр за столько лет мог бы и научиться делать автокат *мимопроходил
Иногда всё же лучше, что б люди хоть немного сами думали.
Сорри, не сразу сообразил, что тег ката ставится только в конце текста.
Помимо общих принципов, хотелось бы узнать о ПО и его настройках (и цене).
В этой статье я не планировал писать о самом ПО VoiceNavigator.
У нас есть вся документация: по установке, настройке, отладке. Есть доки по интеграции с каждой голосовой платформой.
Стоимость я тоже не буду писать — не похвалят за рекламу.
Если нужно больше информации, то www.vxml.ru — там, кстати, вся документация выложена.
Спасибо большое за это! Но почему ссылку приходится искать через «все страницы»?
Сейчас мы делаем новый сайт посвященный речевым технологиям, там она будет на первом месте.
…в Метрополитене Санкт-Петербурга многие информационные сообщения на станциях читает именно синтез, но почти никто этого не замечает…


Я постоянно (без преувеличения, каждый день) работаю с синтезом речи и слышал практически все существующие русскоязычные TTS Engines, поэтому вполне способен сходу на слух отличить синтезированную речь от записанной диктором и назвать производителя голосового движка. Тем не менее, действительно, не припоминаю в Санкт-Петербургском метрополитене активного использования TTS.

Вы могли бы привести конкретные примеры ситуаций/фраз/типов информационных сообщений, которые реализованы через синтез речи?

В принципе воспроизведение в определённом порядке нарезки записанных диктором фрагментов — это тоже синтез, но, как я понял, вы говорили именно о полноценном синтезе речи по тексту, а не о его компиляционном варианте.
Когда едешь в вагоне по синей ветке, он произносит какие то служебные сообщения, которые актуальны только иногда.
Пору раз слышал на пероне какие то предупреждения — не могу точно вспомнить текст.
Но синтез они используют 100% (ЦРТ, голос Владимир) — сами продавали им.

Дело в том, что внутренняя маршрутизация телефонных вызовов в Питерском Метро работает на основе распознавания речи, т.к. у них в телефонной инфраструктуре очень много телефонов без DTMF, а иногда и вообще без цифровых кнопок.
т.к. речевые технологии уже используются, то почему бы и сообщения не озвучивать синтезом на скорую руку…
Спасибо, постараюсь при случае обратить внимание, но из пиронных сообщений в СПб я только припоминаю просьбы мужским голосом не стоять близко к краю и не задерживать отправление поезда, и по-моему это всё-таки дикторская запись, а не TTS Владимир.

Кстати, как я понимаю, вы сотрудник ЦРТ. Не можете как-то прокомментировать перспективы выхода ваших голосов на частный потребительский рынок, в частности SAPI-версии для Windows и, главным образом, синтезаторы для Android? Или это не к вам?

Просто, например, по заявлением представителей компании Acapela Group, их русский голос Алёна является лидером по продажам на Android среди всех голосов для разных языков, т.е. рынок вполне разогрет.
Как мне подсказали коллеги, синтезированный голос на ст. м. Фрунзенская (здесь находится наш офис) просит не оставлять вещи на пероне и т.д. Также вспомнил сообщение в вагоне, что на какой то см. метро (не Девяткино) не открывается последняя/первая дверь.

У нас есть приложения на iOS, которое читает книги синтезом, «Читатель» называется, есть RSS ридер, который новости читает синтезом.
В сторону Android смотрим, но без особого рвения, т.к. монетизация там сильно ниже.
Но понимаем, что рано или поздно это случится.

У нас есть сейчас доступ к синтезу через веб, по http. Это в какой то мере закрывает потребности в озвучивании сайтов, мобильных приложений, корпоративных справочных систем. Могу дать тестовый доступ.

Версии под Windows не планируются по политическим и финансовым причинам. Стоить оно много не может, а возможности предоставит огромные.
Про Читателя и RSS-радио, конечно, знаю, но это ограниченные решения. На Android вы можете сделать общесистемный синтезатор, типа SAPI на Windows. В результате синтезаторы под Android люди активно используют в совершенно разных читалках, т.е. вам не надо запиливать свою, а достаточно выпустить платный голос. Плюс Android сейчас очень активно заполняется незрячими пользователями, которые используют синтезаторы вместе с программами чтения экрана. Так что аудитория там есть и активно растёт. Только вот уже достаточно высокая конкуренция и имеет смысл быстрее выходить на рынок, потому что скоро там ожидаются русские голоса от Ivona Software и Nuance, так что станет совсем тесно.

По поводу тестового доступа по HTTP, то если это возможно, то буду благодарен. Правда не знаю, что я с этим буду делать, но хотя бы посмотрю. Только напишите, пожалуйста, какие ограничения и какие условия. Если на базе этого шлюза запилить облачный SAPI-синтезатор, вы ведь, наверное, не обрадуетесь? ;-)
Правильно ли я понимаю, что ПО VoiceNavigator или другое, способно обслуживать только одну компанию/услугу, иметь одну точку входа. То-есть компания имеющие два независимых направления и два номера, должна будет купить два комплекта?
Нет. ПО лицензируется по количеству каналов (сессий) и ему все ровно кто и от куда к нему обращается. Оно умеет только синтезировать и распознавать и подключается напрямую к IVR платформе. А уж чем занимается эта IVR платформа, VoiceNavigator не интересует.
Например VN стоит у оператора связи Телфин и обслуживает одновременно 20-30 компаний.
Only those users with full accounts are able to leave comments. Log in, please.