VoiceFabric: технология синтеза речи из облака



    Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.

    Для чего Вам может понадобиться синтез речи?
    За историю существования сервиса мы получили от клиентов сотни разных вариантов того, как можно применять эту технологию. Иногда это задача адаптации сервисов и сайтов для людей с ограничениями по зрению, но многие используют возможности синтеза и просто для собственного удобства (например, для банального прослушивания книг в машине). Использование синтеза речи может быть крайне эффективно для решения бизнес-задач крупных компаний и стартапов.


    Если классифицировать все запросы, то получится не такой уж и большой список:
    1. Озвучка книг и статей для частного использования. Можно делать аудиокниги и предлагать их другим.
    2. Озвучка видеороликов на YouTube и других видеоканалах. Обычно это обучающие видеоролики/лекции или зарубежные ролики/интервью, титры для которых есть на русском. Например.
    3. Создание аудиоподкастов на основе RSS-потоков и новостных лент.
    4. Озвучка контента сайта. Например (кнопка в шапке сайта).
    5. Озвучивание любой динамической информации в IVR-меню колл-центров (телефония). Можно и статичные сообщения тоже. Позвоните в КЦ РЖД, Мегафона, РоссельхозБанка и т.д.
    6. Социальные сети. Например, у нас совместный проект с ВКонтакте.
    7. Мобильные приложения.
    8. Информационные сообщения в сетях ГГС: объявления на вокзалах и в транспорте, различные автоинформаторы, автообзвонщики и т.д.
    9. Голоса для роботов и виртуальных консультантов, когда тексты все время меняются и озвучивать все варианты с помощью дикторов долго и не очень удобно.

    Какой синтез речи у нас есть
    На данный момент это 9 различных голосов:
    — 7 на русском языке (2 мужских и 5 женских);
    — 1 американский английский — Carol;
    — 1 голос казахского языка — Асель. (По нашим данным — это единственный в мире синтез казахского, готовый для промышленного внедрения, во всяком случае аналогов мы не нашли, если вы найдете – закидывайте в комментарии).

    Все примеры голосов можно прослушать здесь.
    Каждый из них доступен в формате 8000 Гц (для телефонии) и 22050 Гц.

    Наш русский синтез разрабатывался российскими учеными и разработчиками. В него заложены все правила и грамматики, особенности и сокращения, свойственные русской речи. А при создании зарубежных голосов мы привлекали носителей языка, чтобы учесть уже их языковые особенности и нюансы.

    Чтобы понять, чем отличается наш русский синтез от зарубежных аналогов, проверьте его работу на озвучивании массивов не подготовленного информационного текста – естественного, разговорного, который изначально писался для того, чтобы его читали люди. Такие тексты обычно содержат множество сокращений и аббревиатур, которые сразу понятны человеку, но при их написании не предполагалось, что их когда-либо будет читать машина.
    Попробуйте озвучить, например, в Google TTS, фразу: «Университет имени проф. Бонч-Бруевича находится в г.Санкт-Петербург, пр. Большевиков, д.22», или что-нибудь аналогичное, а потом сравните с нашим синтезом. На крупных внедрениях мы постоянно сталкиваемся с такими текстами. Яркий пример — база знаний в колл-центре, которая наполнялась когда-то для операторов. Переводить в данном случае всю базу знаний в удобоваримый для машины вид — это дорогое и долгое занятие.

    Также у нас есть поддержка технологии Lipsync – это когда анимированные губы двигаются в такт того, что произносят. Можно делать виртуальных персонажей, которые правильно будут двигать губами, когда будут что-то говорить.

    Ну и, конечно же, поддержка SSML разметки (язык разметки синтеза речи).

    Ещё мы создаем уникальные голоса на заказ. У нас даже был опыт создания синтезированного голоса человека, который давно уже «не с нами». Обучение синтеза речи проходило по старым записям (даже пластинкам), поэтому звучание синтеза соответствующее. Но, тем не менее — это настоящий синтез и он может читать любой современный текст. Послушать, что получилось, можно здесь.

    Пара слов о том, как встроить синтез в свой проект
    Мы предлагаем два способа использования TTS VoiceFabric:

    1) API-ключ, который встраивается в web-запрос.
    Обмен информацией API-сервиса VoiceFabric с приложением ведется по протоколу HTTPS. Текст, который не превышает 4096 символов, может передаваться на синтез запросом GET. Текст объемом до 10 Мб может передаваться на синтез запросом POST.
    Формат выходного звукового файла codec=pcm, bit=16, rate=8000, raw.
    Все запросы должны быть сформированы согласно HTTP-протоколу. Параметры строки запроса: UrlEncode, разделитель & и т.д.
    Все подробности в документации по интеграции.

    2) Web-сервис, куда можно вставить любой текст (ctrl+C | ctrl+V), выбрать голос и получить озвученный текст в виде звукового файла.

    Пробуйте, смотрите, пишите комментарии. Для нас очень важна обратная связь.

    P.S. от себя лично.
    Я довольно давно занимаюсь синтезом речи и многие статьи с Хабра уже не читаю на сайте, а слушаю. У меня просто нет времени уже читать, а так можно слушать интересные мне статьи и одновременно заниматься другими делами или я вообще делаю из статьи МР3 и ухожу на улицу.

    Only registered users can participate in poll. Log in, please.

    Поэтому, хочется сделать небольшое голосование: Было бы Вам такое удобно? Мы готовы бесплатно предложить сервис синтеза Хабру

    Центр речевых технологий (ЦРТ)
    72.09
    Company
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 20

      +3
      Вы нам «Читатель» для Android обещали в конце сентября… можно уже не ждать?
        +3
        Как раз с сентября мы и тестируем «Читатель» под Android. Приложение оказалось излишне требовательно к ресурсам, т.к. синтез происходит прямо на устройстве. Сейчас приложение корректно работает только на устройствах с 2Гб памяти и все это время мы пробуем его оптимизировать. Функциональность и интерфейс полностью разработаны. Проблема исключительно в «прожорливости».
        Кто хочет принять участие в тестировании «Читателя» под Android, можете написать мне в ЛК, я дам Вам права на скачивание и тестирование, но от Вас будем ждать обратной связи.
          0
          >>Пробуйте, смотрите, пишите комментарии. Для нас очень важна обратная связь.

          К сожалению ЦРТ ориентирован только на юр.лиц, а физ.лица Вам не интересны, поэтому увы, не будем смотреть, не будем писать и тестировать.
            0
            VoiceFabric ориентирован в том числе и на работу с частными пользователями. Если начать процесс регистрации на портале, то Вы увидите, что можно зарегистрироваться как физическое и юридическое лицо. Сейчас 90% всех регистраций на портале — это как раз частные лица. Так что выбор за Вами.
              0
              Потестировал качество синтеза, и если честно, то оно примерно такое же как у бесплатного синтезатора RHVoice. В связи с этим закономерный вопрос — зачем я должен платить за Ваш онлайн-синтезатор, когда есть примерно такой же бесплатный и офлайновый RHVoice (под Linux, Windows и Android)?
                0
                Специально для этого мы на главной странице сделали демо-режим, что бы каждый мог все протестировать и самостоятельно сделать для себя выводы, какое у кого качество и кому и за что платить.
                  0
                  Типичный ответ ЦРТ, мы очень круты, наши технологии используют РЖД и Мегафон, а это само говорит за себя. Хотелось бы услышать более профессиональный ответ.
                  Помимо качества синтеза есть еще масса критериев, например для сравнения:
                  TTS сервис Nuance 84 голоса (это M+F на разных языках), на выходе WAV, SPEEX, AMR (8, 16, 22 кГц) и еще масса плюшек, платный сервис;
                  TTS сервис iSpeech — 42 голоса (это M+F на разных языках), на выходе MP3, OGG, WMA, FLAC, WAV и еще пяток форматов (от 8 до 48 кГц), платный сервис;
                  TTS сервис Google — 18 языков, на выходе MP3, бесплатный;
                  TTS сервис Yandex — точно 10 языков, может больше, на выходе WAV, бесплатный;
                  и это далеко не все сервисы TTS, так что выбор есть и на месте ЦРТ, я бы дал нормальный ответ, почему я должен выбрать Вас, а не iSpeech или бесплатный Google.
                    0
                    Технологии синтеза и распознавания речи являются языкозависимыми, они напрямую зависят от региона, где распространяется технология, поэтому хорошие примеры голосов/языков нельзя проецировать на остальные языковые рынки. Это не тоже самое, что локализовать интерфейс какого либо ПО. Поэтому количественные показатели языков на каждом конкретном рынке большой роли не играют.

                    Есть мультиязычные страны, где одновременно, например, может быть востребован английский и французский язык.
                    Но в России на практике такого нет, здесь мультиязычность второстепенна.

                    В тоже время, например, в Казахстане ситуация другая, в связи с тем, что в ходу одновременно несколько языков.
                    Для них критично, что бы на ряду с казахским языком был еще и русский.

                    Что по поводу звуковых форматов, то это технический быстро решаемый момент, который не является камнем преткновения.
        0
        Мда, качество действительно хорошее, особенно с учётом того, как произносятся сокращения и вставки на английском языке. Как всё же быстро всё развивается!
          0
          Пришлите, пожалуйста веб форму, где можно протестировать 1) любой голос на заказ 2) голос умершего человека

          basilevs (at) wowcall.ru
            0
            А вы парсить русскую речь в текст умеете?
            0
            Ошибка!
            Код: 403. Billing exception. Blocked service TTS. Reason: «symbols»: Amount for session: rest 150 < requested 222
            Я вот понял о чём там, а человеческие люди — нет.

            P.S. от себя лично.
            Я довольно давно занимаюсь синтезом речи и многие статьи с Хабра уже не читаю на сайте, а слушаю. У меня просто нет времени уже читать, а так можно слушать интересные мне статьи и одновременно заниматься другими делами или я вообще делаю из статьи МР3 и ухожу на улицу.
            И да, я уже более года трачу по 2 часа в день (1/12 моей жизни) на прослушивание статей и книг. Честно, иногда хочется забить гвоздь в голову людям слушающим эмэр-три (но я вполне понимаю, что люди не рассчитывали на то, что их будут слушать, а не читать). И вот тут я надеялся на понимание, а вы всё туда же. Точно в последнем абзаце написана правда? Люди, которые много слушают тексты и при написании обращают внимание на то, как те звучат.

            Сейчас использую Android/Svox (конечно платный), но думаю над тем, чтобы перейти на другую говорилку, ибо надоело озвучивание английских литер как латинских цифр (да, 3-500 графика, язык программирования 100++ и 400 болванки).
            Но прослушанные голоса звучат как-то сильно глухо. Из плюсов (по сравнению с Svox) — хорошее (не отличное) качество на мультиязычных текстах.
            Могу попробовать поставить бету на телефон и потестировать. Или нет. Гмылопочта: archieru

            Ну и раз уж мы здесь собрались — посоветуйте хороших TTS под Android.
              0
              Ошибка 403 означает, что в поле «демо» было введено больше 150 символов.

              В последствии дизайн VoiceFabric заметно обновится, сейчас он сделан больше из шаблонных элементов. В это время и вывод ошибки будет «человеческий». В приоритете у нас развитие функциональности. Постоянно придумываем что-то новое, из-за чего приходилось вносить правки в дизайн.
              Например, мы хотим на главную страницу вывести анимированные губы, что бы сразу показать в работе технологию Lipsync — это бы заставило нас дорабатывать дизайн.
                0
                тогда бы ещё сделать проигрывание текста на странице без необходимости скачивать.
              0
              Своим ценником вы перегораживаете путь малого бизнеса к вашим технологиям, тем самым сами сдерживая прогресс и популяризацию. Не каждый готов заплатить только за лицензию того же VoiceNavigator 300 000 рублей (если вы цены за полгода не подняли). И это если интеграцию своими силами делать.

              К тому же почему бы вам не выпустить клиента для MS Speech API обычным пользователям и не продавать его за вменяемые деньги, как это делают ваши буржуйские конкуренты. Тем более, что ваша компания в свое время очень такой недетский гранд из бюджета государства получила на создание голоса. Я бы, например, с удовольствием отдал бы вам 90$ вместо Ivona за их десктопного агента. Кстати, правила русского языка и сокращения вы лучше обрабатываете, но у них голос звучит без бульканий гораздо ближе к натуральному.
                0
                Кстати на сервере TTS от Ivona работает сервис озвучки статей. Сравните как Ivona голос звучит. Да и ценник там сильно приятнее, а статьи до 15 тыс. знаков вообще бесплатно. Вот тут действительно на частных пользователей ориентация. А вы всё же больше на бизнес смотрите, причем, далеко не мелкий.

                Растет конкуренция и это радует.
                  0
                  Вставил в пару TTS фразу, не проживало только профессора, остальное прочитала как надо и даже качественней.
                    0
                    А можно ли вашему движку отдать на прочтение текст с предварительно расставленной разметкой ударений?
                    (а то, может быть и интонаций)
                      0
                      Можно. Это делается с помощью SSML разметки или с применением специальных символов. Насколько я помню, для указания места ударения нужно поставить спецсимвол "*" в теле слова.

                    Only users with full accounts can post comments. Log in, please.