Comments 24
sur@hnt56:~/sova-tts$ sudo docker-compose up -d sova-tts
Creating network "sova-tts_default" with the default driver
Creating sova-tts ... done
sur@hnt56:~/sova-tts$ curl --request POST 'http://localhost:8899/tts/' --form 'voice=all' --form 'text="Добрый день!"'
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
404 Not Found
Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.
Попробуйте исправленный вариант:
$ curl --request POST 'http://localhost:8899/synthesize/' --form 'voice=Natasha' --form 'text="Добрый день!"'
Прикольно, но для коммерческого применения пока не юзабельно, большие проблемы с ударениями.
«лигурийского регулировщика » за раз полностью озвучить не получилось, ноут думал минут 30, выжрал всю память но не смог… ну или может скорее мне надоело ждать.
Но первые два предложения звучат неестественно как-то, ну и ударения…
Вот звонил недавно бот МТС-вский, там у них качество как-то на уровень выше, даже не сразу сообразил, что бот, и к речи придраться там нельзя было… И ударения, и паузы все естественные были.
За работу зачет. Вполне возможно, что ваш коммерческий вариант более умен, чем опенсорсный, это ваше право. Молодцы!
Насчёт скорости: это, конечно, зависит от устройства, на котором проводятся вычисления. Например, первая скороговорка Лигурии «В четверг четвертого числа в четыре с четвертью часа лигурийский регулировщик регулировал в Лигурии», озвученная выше, вместе с точкой будет составлять 100 символов без учёта токенов ударения и конца строки (как удачно :)). Для такой длины время генерации в зависимости от железа следующее:
~16 с на Intel Xeon CPU E5-2686 v4 @ 2.30GHz
~1 с на Tesla V100 SXM2 16GB
То есть для озвучки всей Лигурии на Xeon потребуется около 7.5 минут. На менее мощных процах, естественно, времени потребуется больше.
За похвалу спасибо!
А вообще по поводу таких вещей открывайте issue на гитхаб, пожалуйста, всё-таки комментарии не предназначены для решения таких вопросов. Попробуем там разобраться, в чём проблема.
польская разработка покупал за 35 евро года 4 назад для озвучивания аудиокниг, из ошибок самая досаждающая ПОРОГ — ПРОРОГ
Для полноты повествования нужно осветить ряд вещей, о которых авторы вероятно немного постеснялись высказаться для "красивой истории":
Зачем выкладывать чужой код, но не в виде форка, а виде отдельного репо с минимальными изменениями — честно говоря не совсем понятно;
Скорость конструкции Такотрон + WaveGlow примерно в 100 — 1000 ниже (понятное дело на CPU) чем коммерчески рентабельно, да и вообще ради синтеза ставить GPU довольно непонятная для "бизнеса" затея;
"Естественность" у оригинальных английских реализаций понятно на уровень выше, но английский как ни странно фонетически сложнее, но "секретный" соус естественно никто не раскрывает. Имеет место неограниченный доступ к compute и черри-пикинг со стороны Нвидии (они очень любят показывать примеры WaveGlow на оригинальной спектрограмме, а комбинацию с Tacotron засунуть в низ страницы);
Также смотря на описанные планы:
Полноценный нормализатор текста для раскрытия чисел, аббревиатур и сокращений;
Не могу сказать про полноценность, но мы выкладывали уже такое https://github.com/snakers4/russian_stt_text_normalization
В остальном авторов явно еще ждет много разочарований, т.к. там указан целый ряд пунктов, качественное решение которых — это тема для серьезных исследований, а не просто пункт в чеклисте.
Отнюдь, я старался писать статью не как "красивую историю", а как историю разработки и проведённых экспериментов. Не возражаю, что какие-то моменты я мог не упомянуть, но это прозошло не из-за злого умысла. Теперь по пунктам:
- Потому что у нас разработка ведётся в локальном гитлабе, и изначально репозиторий NVIDIA был скопирован туда. Я не совсем понимаю, в чём претензия, потому что я неоднократно подчёркивал в статье, да и в репозитории об этом сказано в ридми, что весь код основан на коде NVIDIA + во всех файлах есть соответствующие лицензионные заглавия. По поводу минимальных изменений: я рассматриваю наш репозиторий, как подготовленный агрегатор различных идей и подходов по улучшению его работы, которые можно было встретить в интернете. Насколько это ценно? Будь такой репозиторий в начале нашей работы, то разработка пошла бы гораздо быстрее;
- По поводу скорости, опять же, ничего не скрываю и привожу её в комментариях выше. Что там решит бизнес — это уже другой разговор, не относящийся к главной повестке статьи;
- Это, конечно, так, но как это относится к русскоязычному open source синтезу, о котором идёт речь в тексте?
- Да, видели это решение — хорошая штука, хоть и не со всем справляется. Но в любом случае нам нужен собственный нормализатор, который мы сможем использовать для коммерции. Насчёт остальных пунктов — всё так, и мы прекрасно понимаем, что впереди ещё много усердной работы.
всем кому интересна идея синтеза — вероятно вас заинтересует эта публикация — https://habr.com/ru/post/549480/
основные фишки:
- не нужны GPU, все прекрасно работает на потоке CPU
- все запускается 1 строчкой из коробки
- 10 голосов, каждый в 16 kHz и 8 kHz
- проведена тщательная работа по анализу качества
Open Source синтез речи SOVA