DemiurgeSerge Dec 1 2014 at 14:39

VoiceFabric: технология синтеза речи из облака

4 min

21K

Центр речевых технологий (ЦРТ) corporate blogInterfaces*Sound

+12

Comments 20

Akr0n Dec 1 2014 at 15:35

Вы нам «Читатель» для Android обещали в конце сентября… можно уже не ждать?

DemiurgeSerge Dec 1 2014 at 15:43

Как раз с сентября мы и тестируем «Читатель» под Android. Приложение оказалось излишне требовательно к ресурсам, т.к. синтез происходит прямо на устройстве. Сейчас приложение корректно работает только на устройствах с 2Гб памяти и все это время мы пробуем его оптимизировать. Функциональность и интерфейс полностью разработаны. Проблема исключительно в «прожорливости».
Кто хочет принять участие в тестировании «Читателя» под Android, можете написать мне в ЛК, я дам Вам права на скачивание и тестирование, но от Вас будем ждать обратной связи.

Sleuthhound Dec 1 2014 at 19:07

>>Пробуйте, смотрите, пишите комментарии. Для нас очень важна обратная связь.

К сожалению ЦРТ ориентирован только на юр.лиц, а физ.лица Вам не интересны, поэтому увы, не будем смотреть, не будем писать и тестировать.

DemiurgeSerge Dec 1 2014 at 19:36

VoiceFabric ориентирован в том числе и на работу с частными пользователями. Если начать процесс регистрации на портале, то Вы увидите, что можно зарегистрироваться как физическое и юридическое лицо. Сейчас 90% всех регистраций на портале — это как раз частные лица. Так что выбор за Вами.

Sleuthhound Dec 1 2014 at 20:08

Потестировал качество синтеза, и если честно, то оно примерно такое же как у бесплатного синтезатора RHVoice. В связи с этим закономерный вопрос — зачем я должен платить за Ваш онлайн-синтезатор, когда есть примерно такой же бесплатный и офлайновый RHVoice (под Linux, Windows и Android)?

DemiurgeSerge Dec 1 2014 at 21:04

Специально для этого мы на главной странице сделали демо-режим, что бы каждый мог все протестировать и самостоятельно сделать для себя выводы, какое у кого качество и кому и за что платить.

Sleuthhound Dec 1 2014 at 22:21

Типичный ответ ЦРТ, мы очень круты, наши технологии используют РЖД и Мегафон, а это само говорит за себя. Хотелось бы услышать более профессиональный ответ.
Помимо качества синтеза есть еще масса критериев, например для сравнения:
TTS сервис Nuance 84 голоса (это M+F на разных языках), на выходе WAV, SPEEX, AMR (8, 16, 22 кГц) и еще масса плюшек, платный сервис;
TTS сервис iSpeech — 42 голоса (это M+F на разных языках), на выходе MP3, OGG, WMA, FLAC, WAV и еще пяток форматов (от 8 до 48 кГц), платный сервис;
TTS сервис Google — 18 языков, на выходе MP3, бесплатный;
TTS сервис Yandex — точно 10 языков, может больше, на выходе WAV, бесплатный;
и это далеко не все сервисы TTS, так что выбор есть и на месте ЦРТ, я бы дал нормальный ответ, почему я должен выбрать Вас, а не iSpeech или бесплатный Google.

DemiurgeSerge Dec 1 2014 at 23:13

Технологии синтеза и распознавания речи являются языкозависимыми, они напрямую зависят от региона, где распространяется технология, поэтому хорошие примеры голосов/языков нельзя проецировать на остальные языковые рынки. Это не тоже самое, что локализовать интерфейс какого либо ПО. Поэтому количественные показатели языков на каждом конкретном рынке большой роли не играют.

Есть мультиязычные страны, где одновременно, например, может быть востребован английский и французский язык.
Но в России на практике такого нет, здесь мультиязычность второстепенна.

В тоже время, например, в Казахстане ситуация другая, в связи с тем, что в ходу одновременно несколько языков.
Для них критично, что бы на ряду с казахским языком был еще и русский.

Что по поводу звуковых форматов, то это технический быстро решаемый момент, который не является камнем преткновения.

alekseev_ap Dec 2 2014 at 01:54

Мда, качество действительно хорошее, особенно с учётом того, как произносятся сокращения и вставки на английском языке. Как всё же быстро всё развивается!

Basilevs Dec 2 2014 at 18:45

Пришлите, пожалуйста веб форму, где можно протестировать 1) любой голос на заказ 2) голос умершего человека

basilevs (at) wowcall.ru

toxa_1 Dec 3 2014 at 12:24

А вы парсить русскую речь в текст умеете?

DemiurgeSerge Dec 3 2014 at 13:09

Вы про распознавание речи? Не очень понял вопрос.

Archie_RU Dec 3 2014 at 16:57

Ошибка!
Код: 403. Billing exception. Blocked service TTS. Reason: «symbols»: Amount for session: rest 150 < requested 222

Я вот понял о чём там, а человеческие люди — нет.

P.S. от себя лично.
Я довольно давно занимаюсь синтезом речи и многие статьи с Хабра уже не читаю на сайте, а слушаю. У меня просто нет времени уже читать, а так можно слушать интересные мне статьи и одновременно заниматься другими делами или я вообще делаю из статьи МР3 и ухожу на улицу.

И да, я уже более года трачу по 2 часа в день (1/12 моей жизни) на прослушивание статей и книг. Честно, иногда хочется забить гвоздь в голову людям слушающим эмэр-три (но я вполне понимаю, что люди не рассчитывали на то, что их будут слушать, а не читать). И вот тут я надеялся на понимание, а вы всё туда же. Точно в последнем абзаце написана правда? Люди, которые много слушают тексты и при написании обращают внимание на то, как те звучат.

Сейчас использую Android/Svox (конечно платный), но думаю над тем, чтобы перейти на другую говорилку, ибо надоело озвучивание английских литер как латинских цифр (да, 3-500 графика, язык программирования 100++ и 400 болванки).
Но прослушанные голоса звучат как-то сильно глухо. Из плюсов (по сравнению с Svox) — хорошее (не отличное) качество на мультиязычных текстах.
Могу попробовать поставить бету на телефон и потестировать. Или нет. Гмылопочта: archieru

Ну и раз уж мы здесь собрались — посоветуйте хороших TTS под Android.

DemiurgeSerge Dec 3 2014 at 17:41

Ошибка 403 означает, что в поле «демо» было введено больше 150 символов.

В последствии дизайн VoiceFabric заметно обновится, сейчас он сделан больше из шаблонных элементов. В это время и вывод ошибки будет «человеческий». В приоритете у нас развитие функциональности. Постоянно придумываем что-то новое, из-за чего приходилось вносить правки в дизайн.
Например, мы хотим на главную страницу вывести анимированные губы, что бы сразу показать в работе технологию Lipsync — это бы заставило нас дорабатывать дизайн.

Archie_RU Dec 3 2014 at 18:01

тогда бы ещё сделать проигрывание текста на странице без необходимости скачивать.

poison361 Dec 14 2014 at 22:56

Своим ценником вы перегораживаете путь малого бизнеса к вашим технологиям, тем самым сами сдерживая прогресс и популяризацию. Не каждый готов заплатить только за лицензию того же VoiceNavigator 300 000 рублей (если вы цены за полгода не подняли). И это если интеграцию своими силами делать.

К тому же почему бы вам не выпустить клиента для MS Speech API обычным пользователям и не продавать его за вменяемые деньги, как это делают ваши буржуйские конкуренты. Тем более, что ваша компания в свое время очень такой недетский гранд из бюджета государства получила на создание голоса. Я бы, например, с удовольствием отдал бы вам 90$ вместо Ivona за их десктопного агента. Кстати, правила русского языка и сокращения вы лучше обрабатываете, но у них голос звучит без бульканий гораздо ближе к натуральному.

poison361 Dec 14 2014 at 23:05

Кстати на сервере TTS от Ivona работает сервис озвучки статей. Сравните как Ivona голос звучит. Да и ценник там сильно приятнее, а статьи до 15 тыс. знаков вообще бесплатно. Вот тут действительно на частных пользователей ориентация. А вы всё же больше на бизнес смотрите, причем, далеко не мелкий.

Растет конкуренция и это радует.

Shvedov Jan 10 2015 at 08:16

Вставил в пару TTS фразу, не проживало только профессора, остальное прочитала как надо и даже качественней.

qmax Feb 8 2015 at 06:36

А можно ли вашему движку отдать на прочтение текст с предварительно расставленной разметкой ударений?
(а то, может быть и интонаций)

DemiurgeSerge Feb 11 2015 at 22:41

Можно. Это делается с помощью SSML разметки или с применением специальных символов. Насколько я помню, для указания места ударения нужно поставить спецсимвол "*" в теле слова.