Comments / Profile of Dekakhrone / Habr

Антон Дробышев @Dekakhrone

Руководитель проектов по машинному обучению

Profile Publications 1Comments 7Bookmarks 133

Минцифры: с начала проекта сотрудники IT-компаний оформили 32 тыс. льготных ипотечных кредитов

Dekakhrone Oct 18 2023 at 20:59

Ставка сохранится, цитата с банки.ру

Что будет, если я уже оформил ипотеку, а потом аккредитация IT-компании была аннулирована?
Банк должен сохранить вам субсидированную ставку.

В программе же указано, что даётся 6 месяцев на поиск новой работы

Look

Open Source синтез речи SOVA

Dekakhrone Nov 19 2020 at 17:01

Отнюдь, я старался писать статью не как "красивую историю", а как историю разработки и проведённых экспериментов. Не возражаю, что какие-то моменты я мог не упомянуть, но это прозошло не из-за злого умысла. Теперь по пунктам:

Потому что у нас разработка ведётся в локальном гитлабе, и изначально репозиторий NVIDIA был скопирован туда. Я не совсем понимаю, в чём претензия, потому что я неоднократно подчёркивал в статье, да и в репозитории об этом сказано в ридми, что весь код основан на коде NVIDIA + во всех файлах есть соответствующие лицензионные заглавия. По поводу минимальных изменений: я рассматриваю наш репозиторий, как подготовленный агрегатор различных идей и подходов по улучшению его работы, которые можно было встретить в интернете. Насколько это ценно? Будь такой репозиторий в начале нашей работы, то разработка пошла бы гораздо быстрее;
По поводу скорости, опять же, ничего не скрываю и привожу её в комментариях выше. Что там решит бизнес — это уже другой разговор, не относящийся к главной повестке статьи;
Это, конечно, так, но как это относится к русскоязычному open source синтезу, о котором идёт речь в тексте?
Да, видели это решение — хорошая штука, хоть и не со всем справляется. Но в любом случае нам нужен собственный нормализатор, который мы сможем использовать для коммерции. Насчёт остальных пунктов — всё так, и мы прекрасно понимаем, что впереди ещё много усердной работы.

Look

Open Source синтез речи SOVA

Dekakhrone Nov 18 2020 at 16:02

Всё так, есть проблемы с произношением (ударения и ё), но они, в основном, связаны с неоднозначностью их простановки, то есть если подготовить решение по их устранению (на правилах или, опять же, на нейронках) и прикрутить к sova tts, то получится уже так:

Лигурия, первая скороговорка

Насчёт скорости: это, конечно, зависит от устройства, на котором проводятся вычисления. Например, первая скороговорка Лигурии «В четверг четвертого числа в четыре с четвертью часа лигурийский регулировщик регулировал в Лигурии», озвученная выше, вместе с точкой будет составлять 100 символов без учёта токенов ударения и конца строки (как удачно :)). Для такой длины время генерации в зависимости от железа следующее:

~16 с на Intel Xeon CPU E5-2686 v4 @ 2.30GHz
~1 с на Tesla V100 SXM2 16GB

То есть для озвучки всей Лигурии на Xeon потребуется около 7.5 минут. На менее мощных процах, естественно, времени потребуется больше.

За похвалу спасибо!

Look

Open Source синтез речи SOVA

Dekakhrone Nov 18 2020 at 15:33

Да, в сети, вообще говоря, мелькает информация, что если скормить такотрону достаточно большой датасет, то он выучит всю необходимую информацию, чтобы синтезировать грамотную речь без использования nlp-препроцессора, однако размер датасета должен исчисляться сотнями часов надиктованной речи.

Look

Open Source синтез речи SOVA

Dekakhrone Nov 18 2020 at 13:40

Я так понимаю, что интересен вариант, который был бы озвучен безо всякой помощи со стороны nlp-препроцессора, который бы расставил ударения по словарю. Если так, то вот open source озвучка без ударений:

Лигурия аудио

Look

Open Source синтез речи SOVA

Dekakhrone Nov 18 2020 at 12:53

ОЗУ требуется около 3 ГБ что для gpu, что для cpu версий докера. Под Windows, если честно, пока не тестировали, но как только сделаем это — отпишемся.

А вообще по поводу таких вещей открывайте issue на гитхаб, пожалуйста, всё-таки комментарии не предназначены для решения таких вопросов. Попробуем там разобраться, в чём проблема.

Look

Open Source синтез речи SOVA

Dekakhrone Nov 18 2020 at 12:38

Пардон, обновили имя запроса, а в документации поправить забыли.
Попробуйте исправленный вариант:

$ curl --request POST 'http://localhost:8899/synthesize/' --form 'voice=Natasha' --form 'text="Добрый день!"'

Look

Information

Specialization