Pull to refresh
13
0
Антон Дробышев @Dekakhrone

Руководитель проектов по машинному обучению

Send message
  1. Ставка сохранится, цитата с банки.ру

Что будет, если я уже оформил ипотеку, а потом аккредитация IT-компании была аннулирована?
Банк должен сохранить вам субсидированную ставку.

  1. В программе же указано, что даётся 6 месяцев на поиск новой работы

Отнюдь, я старался писать статью не как "красивую историю", а как историю разработки и проведённых экспериментов. Не возражаю, что какие-то моменты я мог не упомянуть, но это прозошло не из-за злого умысла. Теперь по пунктам:


  • Потому что у нас разработка ведётся в локальном гитлабе, и изначально репозиторий NVIDIA был скопирован туда. Я не совсем понимаю, в чём претензия, потому что я неоднократно подчёркивал в статье, да и в репозитории об этом сказано в ридми, что весь код основан на коде NVIDIA + во всех файлах есть соответствующие лицензионные заглавия. По поводу минимальных изменений: я рассматриваю наш репозиторий, как подготовленный агрегатор различных идей и подходов по улучшению его работы, которые можно было встретить в интернете. Насколько это ценно? Будь такой репозиторий в начале нашей работы, то разработка пошла бы гораздо быстрее;
  • По поводу скорости, опять же, ничего не скрываю и привожу её в комментариях выше. Что там решит бизнес — это уже другой разговор, не относящийся к главной повестке статьи;
  • Это, конечно, так, но как это относится к русскоязычному open source синтезу, о котором идёт речь в тексте?
  • Да, видели это решение — хорошая штука, хоть и не со всем справляется. Но в любом случае нам нужен собственный нормализатор, который мы сможем использовать для коммерции. Насчёт остальных пунктов — всё так, и мы прекрасно понимаем, что впереди ещё много усердной работы.
Всё так, есть проблемы с произношением (ударения и ё), но они, в основном, связаны с неоднозначностью их простановки, то есть если подготовить решение по их устранению (на правилах или, опять же, на нейронках) и прикрутить к sova tts, то получится уже так:

Лигурия, первая скороговорка


Насчёт скорости: это, конечно, зависит от устройства, на котором проводятся вычисления. Например, первая скороговорка Лигурии «В четверг четвертого числа в четыре с четвертью часа лигурийский регулировщик регулировал в Лигурии», озвученная выше, вместе с точкой будет составлять 100 символов без учёта токенов ударения и конца строки (как удачно :)). Для такой длины время генерации в зависимости от железа следующее:

~16 с на Intel Xeon CPU E5-2686 v4 @ 2.30GHz
~1 с на Tesla V100 SXM2 16GB

То есть для озвучки всей Лигурии на Xeon потребуется около 7.5 минут. На менее мощных процах, естественно, времени потребуется больше.

За похвалу спасибо!
Да, в сети, вообще говоря, мелькает информация, что если скормить такотрону достаточно большой датасет, то он выучит всю необходимую информацию, чтобы синтезировать грамотную речь без использования nlp-препроцессора, однако размер датасета должен исчисляться сотнями часов надиктованной речи.
Я так понимаю, что интересен вариант, который был бы озвучен безо всякой помощи со стороны nlp-препроцессора, который бы расставил ударения по словарю. Если так, то вот open source озвучка без ударений:

Лигурия аудио

ОЗУ требуется около 3 ГБ что для gpu, что для cpu версий докера. Под Windows, если честно, пока не тестировали, но как только сделаем это — отпишемся.

А вообще по поводу таких вещей открывайте issue на гитхаб, пожалуйста, всё-таки комментарии не предназначены для решения таких вопросов. Попробуем там разобраться, в чём проблема.

Пардон, обновили имя запроса, а в документации поправить забыли.
Попробуйте исправленный вариант:
$ curl --request POST 'http://localhost:8899/synthesize/' --form 'voice=Natasha' --form 'text="Добрый день!"'

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Data Scientist
Lead
Python
Linux
C++
Neural networks
Natural language processing