
Всё шло к этому. Мы решили задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу у��арения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.
Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.
Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).
Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.
Выбор модели
Выбор пал на модель v5_cis_base_nostress из релиза по следующим причинам:
Она поддерживает 20 популярных языков России и СНГ;
Мы точно уверены в лицензии этой модели, т.к. она целиком и полностью сделана на наших данных;
Она подразумевает "обязательность" (можно конечно не ставить, но звучать будет так себе, будто язык заплетается) простановки ударения только на славянских языках (русский, украинский, белорусский). На остальных языках - модель "сама" ставит ударение. Плюсы и минусы такого подхода расписаны в оригинальной статье;
В идеальных условиях модель генерирует порядка 100 секунд аудио в секунду, что позволяет её использовать и для синтеза и для более требовательных к задержке кейсов;
В модели присутствуют одни и те же дикторы на своём родном языке и на русском языке.
Текущие ограничения экранной читалки
Есть следующие моменты, которые мы планируем править в следующих релизах:
Пока омографы не завезли в инсталлятор. Думаем как лучше сделать интерфейс;
Ударения и буква
ёавтоматически проставляются моделью-акцентором. Если нужно проставить вручную, ударение ставится такк+ошка;У интерфейса есть некоторые моменты, связанные с отзывчивостью, мы планируем поработать над этим;
Отсутствует поддержка омографов для всех языков и явной проставки ударений для языков кроме славянских;
Акценторы сделаны на базе словарей из 4M, 3M и 2M слов для русского, украинского и белорусского языков соответственно;
Пока не до конца использованы нативные возможности модели по управлению высотой и скоростью речи;
Ряд мелких недочётов.
Как попробовать?
Самый простой способ следующий:
Зайти на страничку, скачать
.exeфайл, установить;Установить программу для озвучки текста, которая работает с SAPI5-интерфейсом. Я тестировал на Балаболке, но у вас может быть своя любимая.
Системные требования:
64-битная Windows;
Мы тестировали на Windows 10 и Windows 11;
Windows XP скорее всего не будет работать, Windows 7 не тестировали.
Будем признательны вам за обратную связь, по сути это пробный релиз для сбора граблей. Обратите внимание, что языки в принципе можно смешивать и что один и тот же диктор присутствует по два раза - как бы на русском и на своём родном языке (у части дикторов русский тоже родной, или более родной, там зависит от человека).
Дисклеймер
В инсталляторе присутствуют реквизиты для добровольных донатов разработчику SAPI5-интерфейса. Если вам очень сильно поможет читалка - вы можете поддержать его напрямую. Обращаю также внимание, что человек не в последнюю очередь старался и для себя, т.к. является незрячим.
Ссылки
Ссылка для скачивания
.exeрелиза - https://github.com/snakers4/silero-models/releases/tag/v5.2;Программа Балаболка - https://www.cross-plus-a.com/ru/balabolka.html;
Наши модели для простановки ударений - https://github.com/snakers4/silero-stress;
Наши модели синтеза - https://github.com/snakers4/silero-models;
Новые модели опубликованные в рамках проекта - https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models;
Примеры запуска моделей для языков России и СНГ;
Обновление проекта
silero-stress.
