Pull to refresh

Comments 24

Доброго вечера! Можно задать вопрос.
Если использовать эти голоса для записи школьных видео-уроков, то это платно или нет?
Где вообще можно узнать подробности?

Если использование некоммерческое, то почему нет.

Спасибо за ответ, но можно мне позанудствовать?

Как педагог я получаю зарплату. А если я выложил видео в Vk и повышаю популярность своей ленты. А если школьники делают проект и собираются его подавать... Варианты есть разные когда некомерческое становится коммерческим... Можно уточнить все же где читать подробности?

Меня бы очень устроила образовательная лицензия, где все это было бы подробно расписано.

Я запустил локально на своём домашнем ноутбуке, всё хорошо, работает. Так что вполне себе можно.

У вас в примерах есть британский английский, но я не услышал американский английский.
Есть модель американского английского, или ограничились только британским?

По идее в английском датасете были спикеры с разными акцентами. Но с какими именно - не смотрели, можно поднять если интересно

Я только что попросил англоязычную модель поздороваться с миром и сказать Schedule. Говорит чётко по-американски (через "ске", без "ше")

В выдуманных и составных русских словах ударение обычно ставится правильно

А что такое "правильное ударение" для выдуманных слов?

Пара примеров:

  • глокая куздра

  • заднеприводный, но заменить задне на какое-то другое слово

это круто!

но,кто такие "мы" ?

это не троллинг, из статьи реально не очевидно.

Предположу что написанное уже учтено, но на всякий случай хотелось бы отметить. Очень уж хочется решения давней проблемы.
Омографы можно разделить на группы:

  1. мн.им/ед.род — скалы, адреса, беды;

  2. жен/муж — внучка, ворона, голубка, толстячкам;

  3. сов/несов — зерно (еще) высыпАлось, зерно (уже) вЫсыпалось;

  4. смысловые;

  5. возможно какие-то еще.

Каждая группа требует немного различных критериев. Многие из которых, можно перенести от одного популярного слова на другие непопулярные, для которых составление корпуса для индивидуального обучения затруднительно. Можно вообще обучать группой. И только смысловые — индивидуально.

Просмотрел ваш список омографов. В первой сотне нашел слова — отзывы, сила, стихи, — вторую форму которых представить не смог.

Потрясающая работа! Такой вопрос: примеры из коллаба должны выводить звук на динамик? Запустил локально, работает только пример с генерацией wav, а на динамик выводить не хочет.

Там есть примеры, которые выводят. Но в колабе есть Ipython, он по сути выводит аудио в элементе веб страницы. Как играть аудио у себя - зависит от того на чем играть.

Скорее всего это гуглится по слову pyaudio.

А что такое народы СНГ? Украина вышла из СНГ вышла в 2018 году. Можно убрать этот имперский фразеологизм?

Отличная штука. попробую прикрутить к своему домашнему умному дому (у меня rhvoice сейчас).

А что делать с неправильным произношением слов? например в фразе "Это просто тест", слово "тест" произносится неверно. Ждать апдейта?

О точно ) как-то не подумал о таком варианте

Я так понял еще числительные нужно самостоятельно переводить в текст, да? модель их не востпринимает.

Еще какие-то значительные особенности есть при работе с моделью, которые нужно учитывать?

Нормализации и каких-то middleware там нет. Нужно учитывать список слов-омографов.

Братцы, создатели! Во-первых, хочу поблагодарить за такую разработку. На линуксе по сути ничего стоящего нет по звучанию. Ваши семплы меня сильно удивили в лучшую сторону.

На радостях попробовал поставить на оранж пи с дебианом, выдает ошибку:

File "tts.py", line 12, in
model = torch.package.PackageImporter(local_file).load_pickle("tts_models", "model")
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/package/package_importer.py", line 249, in load_pickle
result = unpickler.load()
File "/usr/lib/python3.7/pickle.py", line 1085, in load
dispatchkey[0]
File "/usr/lib/python3.7/pickle.py", line 1126, in load_binpersid
self.append(self.persistent_load(pid))
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/package/package_importer.py", line 227, in persistent_load
loaded_reduces[reduce_id] = func(self, *args)
File "/home/orangepi/.local/lib/python3.7/site-packages/torch/jit/_script.py", line 349, in unpackage_script_module
script_module_id,
RuntimeError: Unknown qengine

Погуглил, встречается у людей такая ошибка, но решения так и не нашел. Ткните, куда копать, уж больно хороша библиотека.

Стоит:

torch 1.10.0 (стоял 1.11)

Python 3.7.3

А какую версию модели вы запускаете? В последней модели такого по идее не должно быть, т.к. явную квантизацию оттуда убрали по этой причине.

Такая ошибка вылезала когда люди пытались загружать модель на процессорах без AVX2 инструкций, причем модели были с квантизованными весами, то есть старая до v3_1_ru.

При миграции на новую модель оттуда убрали квантизованные модули и люди прямо писали, что ошибка уходила, но это было на старых компьютерах на Винде.

Соответственно такого одноплатника под рукой нет, не знаю в чем дело, в этой модели по идее нет квантизованных модулей.

Народ писал куда копать, но люди очень часто не пишут какое именно решение им помогало - https://github.com/snakers4/silero-models/discussions/104, ещё давно в таком духе писал китаец про запуск vad как раз на ARM одноплатнике.

словарь ударений размером примерно в 4 миллиона слов

а можно ли где-то скачать этот или любой другой словарь с ударениями русского языка? Или может быть есть opensource-модель, которая определеяет ударение в слове?

Sign up to leave a comment.

Articles