Обновить

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели13K
Всего голосов 35: ↑35 и ↓0+43
Комментарии13

Комментарии 13

ЗакрепленныеЗакреплённые комментарии

У кого-то может не работать без Microsoft Visual C++ Redistributable

Интересно, потестим, спасибо!

У кого-то может не работать без Microsoft Visual C++ Redistributable

НЛО прилетело и опубликовало эту надпись здесь

Как правило, они сами себя называют незрячими.

НЛО прилетело и опубликовало эту надпись здесь

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Отличная новость! Несколько лет назад, было много, вполне приличных, моделей под «Балаболку». Я использовал их для освоения иностранных языков. Но потом, по разным причинам, это направление стало значительно менее доступным. Из-за чего пришлось полностью отказаться от этой идеи. И переместить свое внимание на поиск более подходящих моделей.

Понравилось работать с моделями «Vosk» для распознавания иностранной речи в Питоне. Особенно порадовал там тайминг для каждого слова. Другие сервисы дают его более грубо.

Но, для синтеза речи, бесплатные модели нашел только сейчас. Есть отличная модель для английского языка: «onyx-v1.0.onnx» / «voices-v1.0.bin». Для французского языка – хорошая модель: «fr_FR-siwis-medium.onnx» / «fr_FR-siwis-medium.onnx.json». Есть и другие неплохие onnx-модели, судя по образцам их речи, но, пока, еще не было времени белее внимательно посмотреть на них.

Странно, но, главной проблемой оказалось добавление тишины в конец озвучиваемой фразы. В «Балаболке» это делалось на «раз/два», а в Питоне, с помощью утилиты «piper.exe» с этим нужно напрягаться. Плюс еще командная консоль глючит с UTF-8, даже при выборе кодовой страницы «chcp 65001», т.е., UTF-8.

Мне это нужно для создания озвученных данных для моей обучающей программы «L'école».

В конце концов, данную проблему решил, с помощью скрипта на Питоне, утилиты «piper.exe» из пакета Питона «piper-tts», утилиты «ffmpeg.exe» и командной консоли «cmd». Есть прототипы и на чистом Питоне, но там возни больше, а другие варианты требуют более мощной техники и более новой операционной системы, что мне подходит меньше.

Короче, как говорится: «Безвыходных ситуаций не бывает. Как минимум, всегда существует три выхода, даже, если вас съели.» ;) .

Цифры и сокращения читаются?

Есть ли в планах сделать движки для Андроида?

Здравствуйте! Очень хотелось бы видеть в SAPI5-реализации Вашу модель Cyrillic languages v4. Там содержатся несколько голосов языков народов Кавказа, в том числе и Карачаево-Балкарского, носителем которого я являюсь. Мне, как человеку с нарушением зрения, дало бы возможность читать тексты на своём родном языке. Надеюсь быть услышанным!

В планах есть поддержка языков Кавказа в рамках отдельной модели.

При установке на win11 (как просто так и из-под админа) пришет "C:\Program Files (x86)\SileroTTS\bin\silero_tts_sapi.dll"

Невозможно зарегистрировать DLL/OCX: Ошибка при выполнении RegSvr32, код возврата 0х3.

// выбираю принудительную установку, пишет успешно, но в Балаболке язык не появляется.
Что я упустил?

upd: и так, сам спросил сам решил
- без vc_redist действительно не работает, но при этом чрезвычайно важная информация!
Не абы какой версии! А строго https://aka.ms/vs/17/release/vc_redist.x86.exe (ссылка взята с сайта балаболки из раздела установки https://www.cross-plus-a.com/ru/bfaq.html) у MS на сайте эту версию чет прям сложно найти.

Спасибо, что не заленились написать follow-up комментарий. Вообще не думал, что нужна какая-то конкретная версия, кроме последней.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации