Комментарии 20
Вы нам «Читатель» для Android обещали в конце сентября… можно уже не ждать?
Как раз с сентября мы и тестируем «Читатель» под Android. Приложение оказалось излишне требовательно к ресурсам, т.к. синтез происходит прямо на устройстве. Сейчас приложение корректно работает только на устройствах с 2Гб памяти и все это время мы пробуем его оптимизировать. Функциональность и интерфейс полностью разработаны. Проблема исключительно в «прожорливости».
Кто хочет принять участие в тестировании «Читателя» под Android, можете написать мне в ЛК, я дам Вам права на скачивание и тестирование, но от Вас будем ждать обратной связи.
Кто хочет принять участие в тестировании «Читателя» под Android, можете написать мне в ЛК, я дам Вам права на скачивание и тестирование, но от Вас будем ждать обратной связи.
>>Пробуйте, смотрите, пишите комментарии. Для нас очень важна обратная связь.
К сожалению ЦРТ ориентирован только на юр.лиц, а физ.лица Вам не интересны, поэтому увы, не будем смотреть, не будем писать и тестировать.
К сожалению ЦРТ ориентирован только на юр.лиц, а физ.лица Вам не интересны, поэтому увы, не будем смотреть, не будем писать и тестировать.
VoiceFabric ориентирован в том числе и на работу с частными пользователями. Если начать процесс регистрации на портале, то Вы увидите, что можно зарегистрироваться как физическое и юридическое лицо. Сейчас 90% всех регистраций на портале — это как раз частные лица. Так что выбор за Вами.
Потестировал качество синтеза, и если честно, то оно примерно такое же как у бесплатного синтезатора RHVoice. В связи с этим закономерный вопрос — зачем я должен платить за Ваш онлайн-синтезатор, когда есть примерно такой же бесплатный и офлайновый RHVoice (под Linux, Windows и Android)?
Специально для этого мы на главной странице сделали демо-режим, что бы каждый мог все протестировать и самостоятельно сделать для себя выводы, какое у кого качество и кому и за что платить.
Типичный ответ ЦРТ, мы очень круты, наши технологии используют РЖД и Мегафон, а это само говорит за себя. Хотелось бы услышать более профессиональный ответ.
Помимо качества синтеза есть еще масса критериев, например для сравнения:
TTS сервис Nuance 84 голоса (это M+F на разных языках), на выходе WAV, SPEEX, AMR (8, 16, 22 кГц) и еще масса плюшек, платный сервис;
TTS сервис iSpeech — 42 голоса (это M+F на разных языках), на выходе MP3, OGG, WMA, FLAC, WAV и еще пяток форматов (от 8 до 48 кГц), платный сервис;
TTS сервис Google — 18 языков, на выходе MP3, бесплатный;
TTS сервис Yandex — точно 10 языков, может больше, на выходе WAV, бесплатный;
и это далеко не все сервисы TTS, так что выбор есть и на месте ЦРТ, я бы дал нормальный ответ, почему я должен выбрать Вас, а не iSpeech или бесплатный Google.
Помимо качества синтеза есть еще масса критериев, например для сравнения:
TTS сервис Nuance 84 голоса (это M+F на разных языках), на выходе WAV, SPEEX, AMR (8, 16, 22 кГц) и еще масса плюшек, платный сервис;
TTS сервис iSpeech — 42 голоса (это M+F на разных языках), на выходе MP3, OGG, WMA, FLAC, WAV и еще пяток форматов (от 8 до 48 кГц), платный сервис;
TTS сервис Google — 18 языков, на выходе MP3, бесплатный;
TTS сервис Yandex — точно 10 языков, может больше, на выходе WAV, бесплатный;
и это далеко не все сервисы TTS, так что выбор есть и на месте ЦРТ, я бы дал нормальный ответ, почему я должен выбрать Вас, а не iSpeech или бесплатный Google.
Технологии синтеза и распознавания речи являются языкозависимыми, они напрямую зависят от региона, где распространяется технология, поэтому хорошие примеры голосов/языков нельзя проецировать на остальные языковые рынки. Это не тоже самое, что локализовать интерфейс какого либо ПО. Поэтому количественные показатели языков на каждом конкретном рынке большой роли не играют.
Есть мультиязычные страны, где одновременно, например, может быть востребован английский и французский язык.
Но в России на практике такого нет, здесь мультиязычность второстепенна.
В тоже время, например, в Казахстане ситуация другая, в связи с тем, что в ходу одновременно несколько языков.
Для них критично, что бы на ряду с казахским языком был еще и русский.
Что по поводу звуковых форматов, то это технический быстро решаемый момент, который не является камнем преткновения.
Есть мультиязычные страны, где одновременно, например, может быть востребован английский и французский язык.
Но в России на практике такого нет, здесь мультиязычность второстепенна.
В тоже время, например, в Казахстане ситуация другая, в связи с тем, что в ходу одновременно несколько языков.
Для них критично, что бы на ряду с казахским языком был еще и русский.
Что по поводу звуковых форматов, то это технический быстро решаемый момент, который не является камнем преткновения.
Мда, качество действительно хорошее, особенно с учётом того, как произносятся сокращения и вставки на английском языке. Как всё же быстро всё развивается!
Пришлите, пожалуйста веб форму, где можно протестировать 1) любой голос на заказ 2) голос умершего человека
basilevs (at) wowcall.ru
basilevs (at) wowcall.ru
А вы парсить русскую речь в текст умеете?
Вы про распознавание речи? Не очень понял вопрос.
Ошибка!Я вот понял о чём там, а человеческие люди — нет.
Код: 403. Billing exception. Blocked service TTS. Reason: «symbols»: Amount for session: rest 150 < requested 222
P.S. от себя лично.И да, я уже более года трачу по 2 часа в день (1/12 моей жизни) на прослушивание статей и книг. Честно, иногда хочется забить гвоздь в голову людям слушающим эмэр-три (но я вполне понимаю, что люди не рассчитывали на то, что их будут слушать, а не читать). И вот тут я надеялся на понимание, а вы всё туда же. Точно в последнем абзаце написана правда? Люди, которые много слушают тексты и при написании обращают внимание на то, как те звучат.
Я довольно давно занимаюсь синтезом речи и многие статьи с Хабра уже не читаю на сайте, а слушаю. У меня просто нет времени уже читать, а так можно слушать интересные мне статьи и одновременно заниматься другими делами или я вообще делаю из статьи МР3 и ухожу на улицу.
Сейчас использую Android/Svox (конечно платный), но думаю над тем, чтобы перейти на другую говорилку, ибо надоело озвучивание английских литер как латинских цифр (да, 3-500 графика, язык программирования 100++ и 400 болванки).
Но прослушанные голоса звучат как-то сильно глухо. Из плюсов (по сравнению с Svox) — хорошее (не отличное) качество на мультиязычных текстах.
Могу попробовать поставить бету на телефон и потестировать. Или нет. Гмылопочта: archieru
Ну и раз уж мы здесь собрались — посоветуйте хороших TTS под Android.
Ошибка 403 означает, что в поле «демо» было введено больше 150 символов.
В последствии дизайн VoiceFabric заметно обновится, сейчас он сделан больше из шаблонных элементов. В это время и вывод ошибки будет «человеческий». В приоритете у нас развитие функциональности. Постоянно придумываем что-то новое, из-за чего приходилось вносить правки в дизайн.
Например, мы хотим на главную страницу вывести анимированные губы, что бы сразу показать в работе технологию Lipsync — это бы заставило нас дорабатывать дизайн.
В последствии дизайн VoiceFabric заметно обновится, сейчас он сделан больше из шаблонных элементов. В это время и вывод ошибки будет «человеческий». В приоритете у нас развитие функциональности. Постоянно придумываем что-то новое, из-за чего приходилось вносить правки в дизайн.
Например, мы хотим на главную страницу вывести анимированные губы, что бы сразу показать в работе технологию Lipsync — это бы заставило нас дорабатывать дизайн.
Своим ценником вы перегораживаете путь малого бизнеса к вашим технологиям, тем самым сами сдерживая прогресс и популяризацию. Не каждый готов заплатить только за лицензию того же VoiceNavigator 300 000 рублей (если вы цены за полгода не подняли). И это если интеграцию своими силами делать.
К тому же почему бы вам не выпустить клиента для MS Speech API обычным пользователям и не продавать его за вменяемые деньги, как это делают ваши буржуйские конкуренты. Тем более, что ваша компания в свое время очень такой недетский гранд из бюджета государства получила на создание голоса. Я бы, например, с удовольствием отдал бы вам 90$ вместо Ivona за их десктопного агента. Кстати, правила русского языка и сокращения вы лучше обрабатываете, но у них голос звучит без бульканий гораздо ближе к натуральному.
К тому же почему бы вам не выпустить клиента для MS Speech API обычным пользователям и не продавать его за вменяемые деньги, как это делают ваши буржуйские конкуренты. Тем более, что ваша компания в свое время очень такой недетский гранд из бюджета государства получила на создание голоса. Я бы, например, с удовольствием отдал бы вам 90$ вместо Ivona за их десктопного агента. Кстати, правила русского языка и сокращения вы лучше обрабатываете, но у них голос звучит без бульканий гораздо ближе к натуральному.
Кстати на сервере TTS от Ivona работает сервис озвучки статей. Сравните как Ivona голос звучит. Да и ценник там сильно приятнее, а статьи до 15 тыс. знаков вообще бесплатно. Вот тут действительно на частных пользователей ориентация. А вы всё же больше на бизнес смотрите, причем, далеко не мелкий.
Растет конкуренция и это радует.
Растет конкуренция и это радует.
Вставил в пару TTS фразу, не проживало только профессора, остальное прочитала как надо и даже качественней.
А можно ли вашему движку отдать на прочтение текст с предварительно расставленной разметкой ударений?
(а то, может быть и интонаций)
(а то, может быть и интонаций)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
VoiceFabric: технология синтеза речи из облака