snakers4 Jun 6 2022 at 20:35

Теперь наш синтез на 20 языках

7 min

12K

Machine learning*DIYSoundNatural Language Processing*Voice user interfaces*

Technotext Winner 2022

+61

Comments 24

MAXH0 Jun 6 2022 at 20:47

Доброго вечера! Можно задать вопрос.
Если использовать эти голоса для записи школьных видео-уроков, то это платно или нет?
Где вообще можно узнать подробности?

snakers4 Jun 6 2022 at 21:03

Если использование некоммерческое, то почему нет.

MAXH0 Jun 7 2022 at 07:05

Спасибо за ответ, но можно мне позанудствовать?

Как педагог я получаю зарплату. А если я выложил видео в Vk и повышаю популярность своей ленты. А если школьники делают проект и собираются его подавать... Варианты есть разные когда некомерческое становится коммерческим... Можно уточнить все же где читать подробности?

Меня бы очень устроила образовательная лицензия, где все это было бы подробно расписано.

alekssamos Jun 6 2022 at 21:56

Я запустил локально на своём домашнем ноутбуке, всё хорошо, работает. Так что вполне себе можно.

vagon333 Jun 7 2022 at 00:47

У вас в примерах есть британский английский, но я не услышал американский английский.
Есть модель американского английского, или ограничились только британским?

snakers4 Jun 7 2022 at 05:19

По идее в английском датасете были спикеры с разными акцентами. Но с какими именно - не смотрели, можно поднять если интересно

snakers4 Jun 7 2022 at 08:15

Там, где мета-данные есть, распределение такое:

Женщин чуть больше.

id_potassium_chloride Apr 5 2023 at 01:40

Я только что попросил англоязычную модель поздороваться с миром и сказать Schedule. Говорит чётко по-американски (через "ске", без "ше")

dmitryvolochaev Jun 7 2022 at 10:42

В выдуманных и составных русских словах ударение обычно ставится правильно

А что такое "правильное ударение" для выдуманных слов?

snakers4 Jun 7 2022 at 12:36

Пара примеров:

глокая куздра
заднеприводный, но заменить задне на какое-то другое слово

ElvenSailor Jun 7 2022 at 11:04

это круто!

но,кто такие "мы" ?

это не троллинг, из статьи реально не очевидно.

Lecron Jun 7 2022 at 13:10

Предположу что написанное уже учтено, но на всякий случай хотелось бы отметить. Очень уж хочется решения давней проблемы.
Омографы можно разделить на группы:

мн.им/ед.род — скалы, адреса, беды;
жен/муж — внучка, ворона, голубка, толстячкам;
сов/несов — зерно (еще) высыпАлось, зерно (уже) вЫсыпалось;
смысловые;
возможно какие-то еще.

Каждая группа требует немного различных критериев. Многие из которых, можно перенести от одного популярного слова на другие непопулярные, для которых составление корпуса для индивидуального обучения затруднительно. Можно вообще обучать группой. И только смысловые — индивидуально.

Просмотрел ваш список омографов. В первой сотне нашел слова — отзывы, сила, стихи, — вторую форму которых представить не смог.

censor2005 Jun 7 2022 at 15:04

Потрясающая работа! Такой вопрос: примеры из коллаба должны выводить звук на динамик? Запустил локально, работает только пример с генерацией wav, а на динамик выводить не хочет.

snakers4 Jun 7 2022 at 15:23

Там есть примеры, которые выводят. Но в колабе есть Ipython, он по сути выводит аудио в элементе веб страницы. Как играть аудио у себя - зависит от того на чем играть.

Скорее всего это гуглится по слову pyaudio.

Holser Jun 8 2022 at 16:23

А что такое народы СНГ? Украина вышла из СНГ вышла в 2018 году. Можно убрать этот имперский фразеологизм?

-4

vgray Jun 14 2022 at 09:57

Отличная штука. попробую прикрутить к своему домашнему умному дому (у меня rhvoice сейчас).

А что делать с неправильным произношением слов? например в фразе "Это просто тест", слово "тест" произносится неверно. Ждать апдейта?

snakers4 Jun 14 2022 at 10:20

Конкретно в этой ситуации можно подать 'Это просто тэст.'

vgray Jun 14 2022 at 10:25

О точно ) как-то не подумал о таком варианте

Я так понял еще числительные нужно самостоятельно переводить в текст, да? модель их не востпринимает.

Еще какие-то значительные особенности есть при работе с моделью, которые нужно учитывать?

snakers4 Jun 14 2022 at 10:27

Нормализации и каких-то middleware там нет. Нужно учитывать список слов-омографов.

denn70 Jun 21 2022 at 01:01

Братцы, создатели! Во-первых, хочу поблагодарить за такую разработку. На линуксе по сути ничего стоящего нет по звучанию. Ваши семплы меня сильно удивили в лучшую сторону.

На радостях попробовал поставить на оранж пи с дебианом, выдает ошибку:

File "tts.py", line 12, in
model = torch.package.PackageImporter(local_file).load_pickle("tts_models", "model")
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/package/package_importer.py", line 249, in load_pickle
result = unpickler.load()
File "/usr/lib/python3.7/pickle.py", line 1085, in load
dispatchkey[0]
File "/usr/lib/python3.7/pickle.py", line 1126, in load_binpersid
self.append(self.persistent_load(pid))
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/package/package_importer.py", line 227, in persistent_load
loaded_reduces[reduce_id] = func(self, *args)
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/jit/_script.py", line 349, in unpackage_script_module
script_module_id,
RuntimeError: Unknown qengine

Погуглил, встречается у людей такая ошибка, но решения так и не нашел. Ткните, куда копать, уж больно хороша библиотека.

Стоит:

torch 1.10.0 (стоял 1.11)

Python 3.7.3

snakers4 Jun 21 2022 at 04:12

А какую версию модели вы запускаете? В последней модели такого по идее не должно быть, т.к. явную квантизацию оттуда убрали по этой причине.

denn70 Jun 21 2022 at 21:43

Silero 0.4.1

языковая модель v3_1_ru

snakers4 Jun 22 2022 at 06:22

Такая ошибка вылезала когда люди пытались загружать модель на процессорах без AVX2 инструкций, причем модели были с квантизованными весами, то есть старая до v3_1_ru.

При миграции на новую модель оттуда убрали квантизованные модули и люди прямо писали, что ошибка уходила, но это было на старых компьютерах на Винде.

Соответственно такого одноплатника под рукой нет, не знаю в чем дело, в этой модели по идее нет квантизованных модулей.

Народ писал куда копать, но люди очень часто не пишут какое именно решение им помогало - https://github.com/snakers4/silero-models/discussions/104, ещё давно в таком духе писал китаец про запуск vad как раз на ARM одноплатнике.

razon Sep 14 2023 at 00:33

словарь ударений размером примерно в 4 миллиона слов

а можно ли где-то скачать этот или любой другой словарь с ударениями русского языка? Или может быть есть opensource-модель, которая определеяет ударение в слове?

Show the best of all time