привет. 1). синтезированная речь — дело нескольких секунд (в зависимости от длины текста). сам не экспериментировал с этим, могу точно сказать, что в пределах 8 секунд
2). все сервисы поддерживают русский язык и еще кучу других помимо английского
Ставил Dragon на iPhone. Распознавал ужасно (особенно когда технический текст). Предполагаю, что SDK использует те же библиотеки. Но так как отсутствуют альтернативы, то на данный момент это, видимо, лучшее приложение, распознающее русскую речь. Кстати, удалил через 20 минут – набирать оказалось быстрее.
вообще тут дело вот в чем (знаком с этим приложением) — когда вы пытаетесь диктовать технический текст, то не задумываетесь, есть ли в языковых базах то или иное слово. Dictation задумывался как диктовка чисто бытовая, а технические и любые нужные словари можно заказывать на этот app опционально (правда не совсем представляю, как). можт с этим и низкий процент распознавания связан
Вот у нашей Питерской фирмы Speereo.com движок синтеза и распознавания речи не требует инета. Они единственные с оффлайновым синтезом и распознаванием — всякие гуглы, эплы и прочая обломались что-то сделать, работающее оффлайн.
Ну и у speereo.com есть и облачные решения тоже (когда голос облаком распонзается и синтезируется) — о них они писали на хабре.
Если офлайновый синтез ставить в мобильное приложение, сколько оно весить будет? Из этого действительно можно сделать что-то удобоваримое для мобильной операционки, не особо загружая память? Есть примеры интеграции?
я немного не правильно выразился — я там не работаю, «наша фирма» = «российская фирма».
Примеры интеграции на сайте. В частности всякие голосвые переводчики под симбиан. Про базы для распознавания — вроде там написано.
Я бы лично готов таскать 1ГБ данных на айфоне, чем в международном роуминге платить $10 за мегабайт мобильного инета (ведь сколько там передача голоса жрет трафика — хз).
нет, предоставляются (не Эпплом а Ньюансом) компоненты клиента и сервера (весят несколько сотен килобайт), которые встраиваются в код приложения, а сервисы сами по себе онлайновые, т.е. запрос на обработку речи в текст или текста в речь по-любэ уходит на сервера и оттуда возвращается юзеру в нужном виде. занимает несколько секунд в зависимости от веса и скорости инета.
разработчику, подключившемуся к сотрудничеству «Silver» это ничего, кроме некоторого времени на внедрение, стоить не будет
Распознавание и синтез речи в любое приложение под iOS за час