snakers4 6 июн 2022 в 17:35

Теперь наш синтез на 20 языках

7 мин

14K

DIY или Сделай самNatural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение *

Победитель Технотекст 2022

+61

Комментарии 24

MAXH0 6 июн 2022 в 17:47

Доброго вечера! Можно задать вопрос.
Если использовать эти голоса для записи школьных видео-уроков, то это платно или нет?
Где вообще можно узнать подробности?

snakers4 6 июн 2022 в 18:03

Если использование некоммерческое, то почему нет.

MAXH0 7 июн 2022 в 04:05

Спасибо за ответ, но можно мне позанудствовать?

Как педагог я получаю зарплату. А если я выложил видео в Vk и повышаю популярность своей ленты. А если школьники делают проект и собираются его подавать... Варианты есть разные когда некомерческое становится коммерческим... Можно уточнить все же где читать подробности?

Меня бы очень устроила образовательная лицензия, где все это было бы подробно расписано.

alekssamos 6 июн 2022 в 18:56

Я запустил локально на своём домашнем ноутбуке, всё хорошо, работает. Так что вполне себе можно.

vagon333 6 июн 2022 в 21:47

У вас в примерах есть британский английский, но я не услышал американский английский.
Есть модель американского английского, или ограничились только британским?

snakers4 7 июн 2022 в 02:19

По идее в английском датасете были спикеры с разными акцентами. Но с какими именно - не смотрели, можно поднять если интересно

snakers4 7 июн 2022 в 05:15

Там, где мета-данные есть, распределение такое:

Женщин чуть больше.

id_potassium_chloride 4 апр 2023 в 22:40

Я только что попросил англоязычную модель поздороваться с миром и сказать Schedule. Говорит чётко по-американски (через "ске", без "ше")

dmitryvolochaev 7 июн 2022 в 07:42

В выдуманных и составных русских словах ударение обычно ставится правильно

А что такое "правильное ударение" для выдуманных слов?

snakers4 7 июн 2022 в 09:36

Пара примеров:

глокая куздра
заднеприводный, но заменить задне на какое-то другое слово

ElvenSailor 7 июн 2022 в 08:04

это круто!

но,кто такие "мы" ?

это не троллинг, из статьи реально не очевидно.

Lecron 7 июн 2022 в 10:10

Предположу что написанное уже учтено, но на всякий случай хотелось бы отметить. Очень уж хочется решения давней проблемы.
Омографы можно разделить на группы:

мн.им/ед.род — скалы, адреса, беды;
жен/муж — внучка, ворона, голубка, толстячкам;
сов/несов — зерно (еще) высыпАлось, зерно (уже) вЫсыпалось;
смысловые;
возможно какие-то еще.

Каждая группа требует немного различных критериев. Многие из которых, можно перенести от одного популярного слова на другие непопулярные, для которых составление корпуса для индивидуального обучения затруднительно. Можно вообще обучать группой. И только смысловые — индивидуально.

Просмотрел ваш список омографов. В первой сотне нашел слова — отзывы, сила, стихи, — вторую форму которых представить не смог.

censor2005 7 июн 2022 в 12:04

Потрясающая работа! Такой вопрос: примеры из коллаба должны выводить звук на динамик? Запустил локально, работает только пример с генерацией wav, а на динамик выводить не хочет.

snakers4 7 июн 2022 в 12:23

Там есть примеры, которые выводят. Но в колабе есть Ipython, он по сути выводит аудио в элементе веб страницы. Как играть аудио у себя - зависит от того на чем играть.

Скорее всего это гуглится по слову pyaudio.

Holser 8 июн 2022 в 13:23

А что такое народы СНГ? Украина вышла из СНГ вышла в 2018 году. Можно убрать этот имперский фразеологизм?

vgray 14 июн 2022 в 06:57

Отличная штука. попробую прикрутить к своему домашнему умному дому (у меня rhvoice сейчас).

А что делать с неправильным произношением слов? например в фразе "Это просто тест", слово "тест" произносится неверно. Ждать апдейта?

snakers4 14 июн 2022 в 07:20

Конкретно в этой ситуации можно подать 'Это просто тэст.'

vgray 14 июн 2022 в 07:25

О точно ) как-то не подумал о таком варианте

Я так понял еще числительные нужно самостоятельно переводить в текст, да? модель их не востпринимает.

Еще какие-то значительные особенности есть при работе с моделью, которые нужно учитывать?

snakers4 14 июн 2022 в 07:27

Нормализации и каких-то middleware там нет. Нужно учитывать список слов-омографов.

denn70 20 июн 2022 в 22:01

Братцы, создатели! Во-первых, хочу поблагодарить за такую разработку. На линуксе по сути ничего стоящего нет по звучанию. Ваши семплы меня сильно удивили в лучшую сторону.

На радостях попробовал поставить на оранж пи с дебианом, выдает ошибку:

File "tts.py", line 12, in
model = torch.package.PackageImporter(local_file).load_pickle("tts_models", "model")
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/package/package_importer.py", line 249, in load_pickle
result = unpickler.load()
File "/usr/lib/python3.7/pickle.py", line 1085, in load
dispatchkey[0]
File "/usr/lib/python3.7/pickle.py", line 1126, in load_binpersid
self.append(self.persistent_load(pid))
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/package/package_importer.py", line 227, in persistent_load
loaded_reduces[reduce_id] = func(self, *args)
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/jit/_script.py", line 349, in unpackage_script_module
script_module_id,
RuntimeError: Unknown qengine

Погуглил, встречается у людей такая ошибка, но решения так и не нашел. Ткните, куда копать, уж больно хороша библиотека.

Стоит:

torch 1.10.0 (стоял 1.11)

Python 3.7.3

snakers4 21 июн 2022 в 01:12

А какую версию модели вы запускаете? В последней модели такого по идее не должно быть, т.к. явную квантизацию оттуда убрали по этой причине.

denn70 21 июн 2022 в 18:43

Silero 0.4.1

языковая модель v3_1_ru

snakers4 22 июн 2022 в 03:22

Такая ошибка вылезала когда люди пытались загружать модель на процессорах без AVX2 инструкций, причем модели были с квантизованными весами, то есть старая до v3_1_ru.

При миграции на новую модель оттуда убрали квантизованные модули и люди прямо писали, что ошибка уходила, но это было на старых компьютерах на Винде.

Соответственно такого одноплатника под рукой нет, не знаю в чем дело, в этой модели по идее нет квантизованных модулей.

Народ писал куда копать, но люди очень часто не пишут какое именно решение им помогало - https://github.com/snakers4/silero-models/discussions/104, ещё давно в таком духе писал китаец про запуск vad как раз на ARM одноплатнике.

razon 13 сен 2023 в 21:33

словарь ударений размером примерно в 4 миллиона слов

а можно ли где-то скачать этот или любой другой словарь с ударениями русского языка? Или может быть есть opensource-модель, которая определеяет ударение в слове?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий