maybe_elf13 авг 2021 в 07:25

Google представила аудиокодек SoundStream на нейросети

4 мин

4.7K

Машинное обучение * Звук

+11

Комментарии 14

virex 13 авг 2021 в 08:06

Как примерно будет в ближайшем будущем, при звонках между землей и МКС:
- Алло! Меня слышно?
- Да слышу хорошо - вместо настоящего голоса ответил робот
"Связь плохая, раз звуковой кодек переключился с передачи звука на передачу текста и озвучкой робота на принимающей стороне" - подумал звонящий.

Black_Spirit 13 авг 2021 в 08:13

Если надо такой низкий битрейт, то может совсем отказаться от кодирования голоса, а распознавать речь и передавать разговор текстом, а на том конце синтезировать.

Ovoshlook 13 авг 2021 в 08:25

Если низкий битрейт сопряжен с потерями сигнала то потери при передаче текстовых данных не дадут их восстановить. С голосом проще - даже если часть данных не долетит, то ее вполне можно проиграть и понять.

Например пресловутый hello world:

Если мы его отправим некоторое и при этом потеряем скажем O в слове hello и L в world то при синтезе получим условно hell word что в целом поменяет контекст.

При передаче голосового сигнала контекст может быть более понятен из-за интонационного окраса и соответсвенно даже при относительно большой потере данных ( до 7%) - суть сообщения читается без особых проблем.

Black_Spirit 13 авг 2021 в 08:35

Да это все понятно. Можно компенсировать избыточностью при кодировании текста. И не далек тот день, когда синтезаторы речи научатся воспроизводить интонацию, которая в виде меток была добавлена на этапе распознавания речи в текст.

Ovoshlook 13 авг 2021 в 08:42

Тут важно понять не приблизимся ли мы в итоге к тому же количеству информации в итоге что несет в себе media payload. И если да то тогда нет особого смысла в таком подходе.

Black_Spirit 13 авг 2021 в 09:13

Давайте посчитаем. Чтобы Ваш предыдущий комментарий мне прочитать вслух потребовалось 30 секунд. Если их закодировать самым прогрессивным кодеком из статьи с битрейтом 3 кбит/с, то получится 11,25 килобайт. Сколько же занимает текстовая версия? Сохраним Ваш комментарий в виде текстового документа и увидим ровно 1 килобайт. А давайте сожмем этот текстовый документ. Внутри архива он становится около 488 байт. Таким образом, разница в 23 раза. Хорошо, вычтем из этих "в 23 раза" расходы на избыточность и кодировку интонации отдельным байтом на каждом слове. Все равно, на порядок, в 10 раз эффективнее.

Другое дело, где такие скорости передачи могут быть затребованы. На ум приходит связь с подводными лодками, лунными базами и т.д.

Ovoshlook 13 авг 2021 в 10:20

Все верно, но давайте не забывать, что архивация и разархивация забирают ресурсы, и синтез текста текста в голос тоже.
Все это при работе на конечном устройстве пользователя например в конференции между несколькими людьми пока что занимает больше времени и ресурсов чем кодирование и декодирование голосового сигнала

Хотя справедливости ради: подход с пересылкой метаданных и последующей их интерпретации несомненно имеет сильно больше преимуществ нежели пересылка реальных кодированных данных.
Достаточно посмотреть на последние эксперbменты с видео кодеками от nVidea
https://www.youtube.com/watch?v=NqmMnjJ6GEg&t=2s

Касаемо - где использовать такой низкий битрейт:
В видео конференциях например
Тут практически всегда довольно остро стоит вопрос доступной полосы
ее стараются уменьшить за счет всего что только можно

Достаточно посмотреть на техники применяемые тем же google meets:
- деградирование фреймрейта и битрейта картинки участников конференции (Вплоть до отключения их видео ) ради улучшения качества screen sharing например
- урезание количества каналов приемника аудио связи и тд
И это все ради повышения качества картинки

Высвободить несколько десятков кбит/с в голосе - тоже идет в расчет

но если говорить о НЕ RTC то такой подход может оправдан.

Black_Spirit 13 авг 2021 в 10:46

Nvidia молодцы, спасибо за ссылку! Казалось, после спецификации h265 нечего уже оптимизировать. Может фильмы с их подходом не закодируешь, но для видеоконференций самое то.

Kanut 13 авг 2021 в 08:48

Если низкий битрейт сопряжен с потерями сигнала то потери при передаче текстовых данных не дадут их восстановить.

Как будто не существует механик для избежания потери данных при потери сигнала или для восстановления данных в случае поврежднеия. И я бы сказал что пересылать текст вместе со служебной информацией для восстановления всё ещё требует меньший обьём чем передача голосового контента.

sprayer 13 авг 2021 в 11:48

Вы не правы, интонации паузы и тд можно и в тексте передать и тогда hell.. wor..d вполне можно расшифровать и понять по тексту

WondeRu 13 авг 2021 в 08:55

Лишь бы не обучали кодек только на рэпе, иначе Вивальди «заиграет» новыми красками после декодирования))

siferdj 16 авг 2021 в 11:13

Они её на моргенштерне не проверяли. Думаю, сеть выпадет в bsod, ибо как шум улучшать?

siferdj 14 авг 2021 в 07:03

Это теперь автономность пострадает даже при прослушивании музыки?

saege5b 15 авг 2021 в 11:02

Если модуль подержки нейросетей ниже определённой версии, то файл даже воспроизводиться не будет :)

Вышла новя версия кодека - покупай новый ттелефон.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий