Всё шло к этому. Мы решили задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу у��арения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.

Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.

Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).

Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Выбор модели

Выбор пал на модель v5_cis_base_nostress из релиза по следующим причинам:

  • Она поддерживает 20 популярных языков России и СНГ;

  • Мы точно уверены в лицензии этой модели, т.к. она целиком и полностью сделана на наших данных;

  • Она подразумевает "обязательность" (можно конечно не ставить, но звучать будет так себе, будто язык заплетается) простановки ударения только на славянских языках (русский, украинский, белорусский). На остальных языках - модель "сама" ставит ударение. Плюсы и минусы такого подхода расписаны в оригинальной статье;

  • В идеальных условиях модель генерирует порядка 100 секунд аудио в секунду, что позволяет её использовать и для синтеза и для более требовательных к задержке кейсов;

  • В модели присутствуют одни и те же дикторы на своём родном языке и на русском языке.

Текущие ограничения экранной читалки

Есть следующие моменты, которые мы планируем править в следующих релизах:

  • Пока омографы не завезли в инсталлятор. Думаем как лучше сделать интерфейс;

  • Ударения и буква ё автоматически проставляются моделью-акцентором. Если нужно проставить вручную, ударение ставится так к+ошка;

  • У интерфейса есть некоторые моменты, связанные с отзывчивостью, мы планируем поработать над этим;

  • Отсутствует поддержка омографов для всех языков и явной проставки ударений для языков кроме славянских;

  • Акценторы сделаны на базе словарей из 4M, 3M и 2M слов для русского, украинского и белорусского языков соответственно;

  • Пока не до конца использованы нативные возможности модели по управлению высотой и скоростью речи;

  • Ряд мелких недочётов.

Как попробовать?

Самый простой способ следующий:

  • Зайти на страничку, скачать .exe файл, установить;

  • Установить программу для озвучки текста, которая работает с SAPI5-интерфейсом. Я тестировал на Балаболке, но у вас может быть своя любимая.

Системные требования:

  • 64-битная Windows;

  • Мы тестировали на Windows 10 и Windows 11;

  • Windows XP скорее всего не будет работать, Windows 7 не тестировали.

Будем признательны вам за обратную связь, по сути это пробный релиз для сбора граблей. Обратите внимание, что языки в принципе можно смешивать и что один и тот же диктор присутствует по два раза - как бы на русском и на своём родном языке (у части дикторов русский тоже родной, или более родной, там зависит от человека).

Дисклеймер

В инсталляторе присутствуют реквизиты для добровольных донатов разработчику SAPI5-интерфейса. Если вам очень сильно поможет читалка - вы можете поддержать его напрямую. Обращаю также внимание, что человек не в последнюю очередь старался и для себя, т.к. является незрячим.

Ссылки