DemiurgeSerge Aug 15 2014 at 15:08

Вышла новая версия мобильного приложения «Читатель» для iOS

2 min

21K

Центр речевых технологий (ЦРТ) corporate blog

+19

Comments 20

DemiurgeSerge Aug 15 2014 at 15:44

Послушать примеры звучания голосов ЦРТ можно здесь.

Sleuthhound Sep 5 2014 at 06:49

Ужасные голоса, голос Анна от бесплатного движка RHVoice в разы лучше. Не пойму за что Вам платить.

Tseikovets Sep 5 2014 at 14:29

Только вот в RHVoice нет голоса Анна. Из русских там только Александр, Елена и Ирина. Русских голосов с именем Анна вообще, насколько я помню, не существует. Anna есть только у Microsoft, в качестве встроенного SAPI5-совместимого движка, и это английский голос.

Sleuthhound Sep 5 2014 at 17:27

Есть там голос Анна и довольно давно
github.com/Olga-Yakovleva/RHVoice/tree/rewrite/data/voices

darkrain Aug 15 2014 at 15:57

За казахский огромный рахмет!

mOlind Aug 15 2014 at 15:58

«Появилась поддержка последней версии iOS», это вы про iOS8?

Голоса хорошие, смущает только небольшое дрожание голоса в некоторых словах, например «синтезированный». Английский голос очень достойный.

DemiurgeSerge Aug 15 2014 at 16:10

Нет, на данный момент, последняя версия это iOS7. Но обещаем в сентябре быстро отреагировать на iOS8.

DmitrySokolov Aug 15 2014 at 16:39

Последний раз пытался пользоваться TTS в начале 2000-х. По моим ощущениям — стало гораздо лучше, но wow эффекта все же нет.

Где можно применить синтез речи?
…

Озвучивание информации на сайте
Вы можете подключить наш «движок» синтеза речи к любому интернет сайту/web-порталу и озвучивать необходимую информацию вслух.

Почему бы вам не встроить озвучивание этой страницы, вместо стихотворения? Была бы отличная демонстрация технологии.

P.S.
Виктория отказывается читать введённый (в форму) текст.
Почему у Carol флаг GB, хотя говорит она с явным американским акцентом?

DemiurgeSerge Aug 15 2014 at 17:30

Carol действительно английский-американский язык.
Но флаг США мы решили не ставить, т.к. американского языка нет.

Ernillew Aug 15 2014 at 21:05

В таких случаях, обычно, ставят флаг пополам, половинка GB и половинка US. Вполне понятно, что имелось в виду.

DemiurgeSerge Aug 19 2014 at 17:27

Мы сейчас переделываем сайт компании. Там будет встроен и синтез и распознавание голоса. Что бы все было наглядно и применимо.

grokinn Aug 15 2014 at 16:42

Расскажите по какому алгоритму у вас ставятся ударения в неподготовленном тексте? Например, послушал яндекс новости на вашем rssradio.ru, в одном и том же тексте может звучать «полиция городА N» и «полиция гОрода N», Дениэл РЭдклифф и Дениэл РэдклИфф.

DemiurgeSerge Aug 15 2014 at 17:12

Это слова — омонимы.
В русском языке их достаточно много.
т.е. эти слова меняют свое ударение в зависимости от контекста, типа — замОк и зАмок.

Синтез смотрит грамматический контекст: какую роль играет слово в предложении, узнает падеж, числительное.
И в зависимости от этого принимает решение о том, где ставить ударение.

Если слово без контекста или его не достаточно, то здесь как раз и могут появляться ошибки.
т.е. RSS Radio прочитал отрывок новости или заголовок, где смысла было недостаточно для определение правильного ударения.

Trept Aug 18 2014 at 11:35

В приведенном примере «полиция гОрода N» контекст вполне достаточен.
Приведите пример (я не нашел), в каком случае корректно выражение «полиция городА N».

DmG Aug 15 2014 at 18:04

Добавьте, пожалуйста, функцию авто-паузы через настраиваемый промежуток времени. А то засыпаю и пол книги за ночь проговаривается! В остальном отличное приложение!

DemiurgeSerge Aug 15 2014 at 18:08

Хорошая идея, записал.

UFO just landed and posted this here

Tseikovets Aug 15 2014 at 20:00

Знаю, что на iOS Читатель вызвал большой интерес у слепых пользователей, но за всё время так и не была решена проблема доступности интерфейса для VoiceOver, так что люди были вынуждены уйти на другие продукты. В отношении Android версии планируется работа над поддержкой accessibility API?

agee Aug 15 2014 at 20:09

Пользуясь случаем, хочу задать несколько вопросов о такой интересной теме.
1. Как вы записываете голоса? По слогам, целыми словами? Какой принцип?
2. Как вы боритесь с тем, что движки «читают» каждое слово четко по отдельности? В реальной речи мы очень часто произносим несколько слов сходу. Они у нас как будто склеены в одно длинное слово.
3. Сколько лет прошло между желанием создать такой софт и выходом версии 1.0? Через какие этапы вы прошли?
4. Какой у вас профессиональный бэкграунд?

Спасибо.

DemiurgeSerge Aug 18 2014 at 13:57

1.Записываем их в студии, просим диктора читать необходимые тексты как в обычной жизни. Синтез может быть «заточен» под определенные тексты, например — чтение художественной литературы, новости, объявления и т.д. Поэтому дикторы должны читать соответствующие вещи.
Если синтез сделан на художественной литературе, то чтение новостной ленты будет звучать «особенно».
Также очень важно следить за состоянием и настроением диктора. Что бы оно было одинаковое на протяжении всего чтения — а это месяц, а то и больше. Бывало, что мы отпускали диктора на выходные только потому, что у него было плохое настроение — а это сказывалось на голосе.

2.Не могу сам ответить, спрошу у наших ученых.

3.Здесь необходимо разделять работы.
Синтезом речи ЦРТ занимается уже 25 лет. Но, в основном, мы работали с SDK под Windows. Он сейчас работает много где, достаточно позвонить в Мегафон, РЖД, ФормулаКино и т.д.
Портирование SDK с Windows на iOS — это отдельная работа.
И также, совершенно отдельная работа — это создание читалки, которая умеет работать с нашим SDK.
Сроки намеренно не называю — секрет.

4.Профессиональный бэкграунд? В синтезе речи? Наверное, сейчас, самый большой в России. У нас несколько десятков ученых и научных сотрудников. А несколько лет назад мы создали собственную кафедру речевых технологий на базе университета ИТМО (СПб)