Comments 14
Как примерно будет в ближайшем будущем, при звонках между землей и МКС:
- Алло! Меня слышно?
- Да слышу хорошо - вместо настоящего голоса ответил робот
"Связь плохая, раз звуковой кодек переключился с передачи звука на передачу текста и озвучкой робота на принимающей стороне" - подумал звонящий.
Если надо такой низкий битрейт, то может совсем отказаться от кодирования голоса, а распознавать речь и передавать разговор текстом, а на том конце синтезировать.
Если низкий битрейт сопряжен с потерями сигнала то потери при передаче текстовых данных не дадут их восстановить. С голосом проще - даже если часть данных не долетит, то ее вполне можно проиграть и понять.
Например пресловутый hello world:
Если мы его отправим некоторое и при этом потеряем скажем O в слове hello и L в world то при синтезе получим условно hell word что в целом поменяет контекст.
При передаче голосового сигнала контекст может быть более понятен из-за интонационного окраса и соответсвенно даже при относительно большой потере данных ( до 7%) - суть сообщения читается без особых проблем.
Да это все понятно. Можно компенсировать избыточностью при кодировании текста. И не далек тот день, когда синтезаторы речи научатся воспроизводить интонацию, которая в виде меток была добавлена на этапе распознавания речи в текст.
Тут важно понять не приблизимся ли мы в итоге к тому же количеству информации в итоге что несет в себе media payload. И если да то тогда нет особого смысла в таком подходе.
Давайте посчитаем. Чтобы Ваш предыдущий комментарий мне прочитать вслух потребовалось 30 секунд. Если их закодировать самым прогрессивным кодеком из статьи с битрейтом 3 кбит/с, то получится 11,25 килобайт. Сколько же занимает текстовая версия? Сохраним Ваш комментарий в виде текстового документа и увидим ровно 1 килобайт. А давайте сожмем этот текстовый документ. Внутри архива он становится около 488 байт. Таким образом, разница в 23 раза. Хорошо, вычтем из этих "в 23 раза" расходы на избыточность и кодировку интонации отдельным байтом на каждом слове. Все равно, на порядок, в 10 раз эффективнее.
Другое дело, где такие скорости передачи могут быть затребованы. На ум приходит связь с подводными лодками, лунными базами и т.д.
Все верно, но давайте не забывать, что архивация и разархивация забирают ресурсы, и синтез текста текста в голос тоже.
Все это при работе на конечном устройстве пользователя например в конференции между несколькими людьми пока что занимает больше времени и ресурсов чем кодирование и декодирование голосового сигнала
Хотя справедливости ради: подход с пересылкой метаданных и последующей их интерпретации несомненно имеет сильно больше преимуществ нежели пересылка реальных кодированных данных.
Достаточно посмотреть на последние эксперbменты с видео кодеками от nVidea
https://www.youtube.com/watch?v=NqmMnjJ6GEg&t=2s
Касаемо - где использовать такой низкий битрейт:
В видео конференциях например
Тут практически всегда довольно остро стоит вопрос доступной полосы
ее стараются уменьшить за счет всего что только можно
Достаточно посмотреть на техники применяемые тем же google meets:
- деградирование фреймрейта и битрейта картинки участников конференции (Вплоть до отключения их видео ) ради улучшения качества screen sharing например
- урезание количества каналов приемника аудио связи и тд
И это все ради повышения качества картинки
Высвободить несколько десятков кбит/с в голосе - тоже идет в расчет
но если говорить о НЕ RTC то такой подход может оправдан.
Если низкий битрейт сопряжен с потерями сигнала то потери при передаче текстовых данных не дадут их восстановить.
Как будто не существует механик для избежания потери данных при потери сигнала или для восстановления данных в случае поврежднеия. И я бы сказал что пересылать текст вместе со служебной информацией для восстановления всё ещё требует меньший обьём чем передача голосового контента.
Вы не правы, интонации паузы и тд можно и в тексте передать и тогда hell.. wor..d вполне можно расшифровать и понять по тексту
Лишь бы не обучали кодек только на рэпе, иначе Вивальди «заиграет» новыми красками после декодирования))
Это теперь автономность пострадает даже при прослушивании музыки?
Google представила аудиокодек SoundStream на нейросети