Valen-rus 15 сен 2022 в 16:40

Голос в мобильных сетях. От чего зависит качество?

6 мин

10K

Блог компании МегаФонРазработка систем связи*Стандарты связи*Сотовая связь

Привет, Habr!

На связи МегаФон и в цикле наших статей поговорим о том, как меняется качество речи в мобильных сетях с развитием новых технологий.

Начнём с небольшого экскурса в историю. С момента изобретения телефона и до конца XX века голос преимущественно передавался по проводам в виде электрических сигналов. С проводами всё просто: звук был аналоговым, то есть не проходил оцифровку, а его качество определялось протяженностью и состоянием медной линии. Но, проводные системы очень плохо масштабировались, поэтому с приходом в жизнь оцифровки началась эра кодирования и сжатия голоса. Начало кодированию речи положило использование импульсно-кодовой модуляции (ИКМ). ИКМ – это процесс, который позволяет преобразовать аналоговый звук в цифровой поток. Для разборчивой передачи речи достаточно, чтобы аналоговый звук находился в диапазоне 0.3-3.4 кГц, что, согласно теореме Котельникова (Найквиста — Шеннона), позволяет трансформировать его в цифровой поток 64 кБит/с.

К слову, ИКМ-64 кодек G.711 (PCM) до сих пор широко используется в телефонных сетях. Почему?

Данный кодек обладает рядом преимуществ:

Простое математическое кодирование, не требует высокой производительности со стороны DSP VoCoder-ов.
Нет потери качества при кодировании/декодировании.

Но у ИКМ-64 присутствуют и недостатки:

Кодек ограничен полосой речи в 0.3-3.4 кГц, что отсекает, приятную уху, окраску речи высокими гармониками.
Скорость передачи данных в 64 кбит/с занимает очень много ресурсов мобильной сети (в проводных сетях такой проблемы, как правило, нет, поэтому G.711, до сих пор крайне популярен в проводной VoIP-телефонии).
Отсутствует адаптация битейта кодека к потерям в передаче данных.

Вернёмся к мобильным сетям и подробнее рассмотрим речевые кодеки.

Вышеупомянутая скорость 64 кбит/с крайне высока для передачи в мобильных сетях. Соответственно, использование такого потока существенно уменьшило бы ёмкость сети. Кроме того, чем больше скорость, тем сложнее её «вытянуть» на краю соты (Сота – это наименьшая единица покрытия сотовой связи). Следовательно, покрытие от базовой станции заметно бы снизилось. Поэтому на радио интерфейсе применяется сжатие. История развития «мобильных» кодеков заслуживает отдельной статьи, скажу лишь, что наибольшую популярность в современных сетях получили кодеки: AMR, WB-AMR, EVS.

AMR

Базовый кодек в мобильной сети.
Кодек преобразует голос в полосе 0.3-3.4кГц в цифровой поток от 4.75 до 12.2 кБит/с.
Имеет адаптацию (битрейт кодека выбирается в зависимости от радиоусловий).
Частота дискретизации: 8 кГц.
Применяется в сетях GSM, UMTS, VoLTE.

WB-AMR (wide-band AMR)

Базовый кодек в мобильной сети.
Частота дискретизации: 16 кГц.

В мобильных сетях используется в двух конфигурациях:

Поток от 6.6 до 12.65 кБит/с передаёт голос в полосе 0.1-6.4 кГц Используется в сетях GSM, UMTS, VoLTE.
Поток от 6.6 до 23.85 кБит/с передаёт голос в полосе 0.1-7.0 кГц Является «базовым» кодеком в сетях VoLTE, опционально может применяться в сетях UMTS.

К слову, в России МегаФон первый, кто в большинстве регионов РФ внедрил в сети UMTS кодек 23.85 кБит/с, предоставив абонентам без поддержки VoLTE высокое качество речи.

EVS

Самый современный на данный день кодек, использующийся в мобильных сетях. В возможности кодека заложен битрейт вплоть до 128 кбит/с, покрывающий весь слышимый диапазон (Full Band). Но, учитывая критерии разумности и баланса между качеством и ёмкостью, в мобильных сетях кодек применяется в режиме WB (частота дискретизации 16 кБит/с) и SWB (частота дискретизации 32к) с максимальной скоростью 24.4 кбит/с.

Кодек EVS-SWB позволяет кодировать голос в полосе 0.05-16кГц, кроме того, данный кодек изначально проектировался под мобильные IP сети и позволяет минимизировать влияние типовых проблем IP сетей на качество речи.

Кодек EVS применяется только в сетях VoLTE. Также, в отличии от базового WB-AMR, не все телефоны поддерживают данный кодек (обычно, EVS доступен в современных моделях смартфонов среднего и высокого ценового сегмента)

Стоит заметить, что МегаФон первым в России запустил в коммерческую эксплуатацию кодек EVS, который с 2018 года работает в нашей VoLTE сети.

Оценить влияние кодека на воспринимаемое качество можно по графику ниже, где приведена оценка качества мобильных кодеков.

Качество речи в зависимости от используемого кодека и битрейта

Адаптация (понижения скорости кодека) является базовым механизмом для мобильных сетей, поэтому при ухудшении качества канала связи, качество снижается незначительно в сравнении, например, с кодеком Opus, который используется в популярных приложениях, таких как Zoom, WhatsApp и других, что видно на графике ниже.

Зависимость качества речи MOS (8-бальная шкала) от кодека и битрейта.
(с) Anssi Rämö, Nokia Technologies.
https://www.researchgate.net/figure/Clean-speech-MOS-scores-with-increasing-bitrate-in-kbit-s_fig3_282605143 — Зависимость качества речи MOS (8-бальная шкала) от кодека и битрейта. (с) Anssi Rämö, Nokia Technologies. https://www.researchgate.net/figure/Clean-speech-MOS-scores-with-increasing-bitrate-in-kbit-s_fig3_282605143

А что будет дальше, например, в сетях 5G (VoNR)?

В настоящее момент разрабатывается кодек IVAS (Immersive Voice and Audio Services), который по своей сути будет являться продолжением развития кодека EVS, дополняя его рядом возможностей, таких как передача звуков с нескольких микрофонов телефона. Это позволит создать пространственный эффект присутствия, дополняющий, например, VR-картинку живой конференции, а также комфортно чувствовать себя в различных вариациях мета-вселенных, ощущая их как реальный мир. J

Как только технология появится в «железе», будем стараться, самыми первыми дать её нашим абонентам.

Как же операторы измеряют качество речи?

Для оценки качества речи используется такая характеристика как MOS (Mean Opinion Score)- как следует из названия это буквально субъективная средняя оценка качества по 5 бальной шкале.

Что это такое? Представим себе огромный актовый зал, где мы собрали большую выборку людей разного пола и возраста и попросили прослушать сначала оригинальный отрывок разговора двух людей, а потом этот же отрывок, прошедший через мобильную сеть. Речь в ней подвергалась процессам кодирования и декодирования, а также шумам в радиоканале, задержкам, потерям пакетов и прочим факторам.

После этого люди должны расставить оценки, на сколько они услышали разницу между изначальным звуком и сэмплом, прошедшим через мобильную сеть.

Оценка	Влияние
5	Нет разницы
4	Речь чёткая, разборчивая, но слышны незначительные искажения
3	Речь разборчивая, но отчётливо заметны искажения в речи
2	Из-за искажений часть слова не удаётся разобрать
1	Большинство слов не удаётся разобрать, разговаривать почти невозможно

Усреднив все полученные от разных людей оценки, мы получим ту самую среднюю оценку качества речи MOS.

Что характерно, эта оценка всегда будет строго меньше 5, так как даже если 2 раза подряд включить оригинальный сэмпл, то всё равно какая-то часть людей услышит разницу. Так устроено наше восприятие, иногда мы слышим то, чего нет.

И что же, чтобы узнать MOS операторы постоянно собирают людей для прослушивания?

Конечно, нет. Исследования в области восприятия человеком звуковых искажений позволили создать довольно точные математические модели, показывающие какую оценку поставили бы люди, если бы мы проводили тест на большой выборке. Наиболее популярные алгоритмы для оценки MOS это PESQ и POLQA. Данные алгоритмы анализируют характер искажений (это важно, так как некоторые искажения наше ухо не замечает совсем, в то время как другие сразу «режут слух»), взвешивают их влияние и рассчитывают финальную оценку MOS.

Сегодня анализ качества речи у оператора выглядит так: два тестовых телефона звонят друг на друга и проигрывают заранее известный диалог людей. Дальше специальное ПО сравнивает полученный сэмпл с оригиналом, определяет характер внесённых помех и по алгоритму POLQA (или PESQ) оценивает, какую бы среднюю оценку поставили бы люди.

МегаФон регулярно проводит измерения качества речи собственной сети и сети конкурентов, чтобы в каждой локации быть первым по качеству речи.

Для этого мы используем как драйв-тесты с измерительным оборудованием, так и современные системы CEM (Customer Experience Management), позволяющие удалённо контролировать качество речи каждого звонка абонента и выявлять места, где качество «проседает».

Пример того, как оператор видит в системе СЕМ качество звонка между двумя абонентами

Если будет интересно в следующем цикле обязательно расскажу детально как в МегаФоне построен мониторинг качества услуг.

Кстати, ходят слухи, что HD голос работает только при звонках внутри сети МегаФон, а между операторами бегает старый добрый G.711.

Отчасти это правда, но уже не совсем. МегаФон активно продвигает тему перевода межоператорских стыков на SIP. Например, уже сейчас в Москве между МегаФон и МТС полноценно работают HD вызовы, надеюсь, что в скором будущем и другие операторы модернизируют архитектуру своих сетей и присоединятся к межоператорскому SIP обмену.

Подытожить тему качества речи хочется некоторыми исследованиями

Если говорить про Москву, то по качеству речи (MOS) МегаФону нет равных. Это подтверждается как регулярными внутренними драйв-тестами, так и независимым сравнением. Например, исследование от компании DMTel:

DMTel (www.dmtel.ru), «Под катком санкций. Мобильная связь в Москве», май 2022

Надеюсь, Вам было интересно!

Про какие ещё мобильные технологии вы хотели бы узнать? Пишите в комментариях.

Валентин Кузьмин

Главный эксперт по сквозной оптимизации в компании «МегаФон»

Теги:

Хабы:

Голос в мобильных сетях. От чего зависит качество?

AMR

WB-AMR (wide-band AMR)

EVS

Как же операторы измеряют качество речи?

Подытожить тему качества речи хочется некоторыми исследованиями

Валентин Кузьмин

Публикации

Информация