Google открыла исходный код кодека для сжатия голоса Lyra / Хабр

6 апреля 2021 года Google открыла исходный код кодека для сжатия голоса Lyra, позволяющего организовывать качественную голосовую связь при низком битрейте. Проект аудиокодека размещен на GitHub под лицензией Apache v2.0. Кодек написан на языке C++ с использованием системы сборки Bazel.

Аудиокодек Lyra сжимает и передает речь на битрейте 3 Кбит/с на таком уровне качества, как это делает кодек Opus на 8 Кбит/с.

Google использовала при разработке Lyra модели на базе системы машинного обучения для воссоздания речи на приемной стороне. С помощью использования рекуррентной генеративной модели Lyra генерирует параллельно несколько сигналов в разных частотных диапазонах, которые позже объединяются в один выходной сигнал с требуемой частотой дискретизации.

Разработчики пояснили, что модель генерации речи Lyra обучалась на тысячах часов звуков на более чем 70 языках мира из различных открытых аудиобиблиотек. Также для ускорения работы кодека используются специальные процессорные инструкции, доступные в 64-битных мобильных процессорах ARM для кодирования и декодирования речи в реальном режиме времени на современных смартфонах.

По информации OpenNET, в числе необходимых для работы кодека Lyra зависимостей присутствует проприетарная библиотека libsparse_inference.so с реализацией ядра для математических вычислений. Google пояснила, что это временное решение. Компания для ее замены уже разрабатывает свою открытую библиотеку, которая будет обеспечивать поддержку различных платформ.