Как стать автором
Обновить

Реализация многоканальных форматов объёмного звука в наушниках с 3D системой динамиков «Сфера»

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.3K

Содержание:

  1. Введение

  2. Понятие объёмного звука и его восприятие человеком.

  3. Типы и форматы многоканальных акустических систем.

  4. Цифровая модель HRTF с внешних многоканальных АС .

  5. Схемы размещения излучателей

  6. Модель наушников с 3D системой динамиков «Сфера».

  7. Мульти-драйверные наушники VS стерео.

  8. Выводы

1. Введение

Объёмный звук, в сочетании со зрительными образами, является неотъемлемой частью для создания эффекта присутствия как в виртуальной среде, так и находясь в кресле кинотеатра или перед игровым монитором. На сегодняшний день существует множество технологий позволяющих воспроизводить 3D звук как с внешней АС так и в наушниках. Основными направлениями являются многоканальные форматы и бинауральный стерео формат.

Многоканальные форматы используются в основном для внешних АС и технологически гораздо сложнее, за счёт требований к звукозаписи, акустическим системам и помещению где она будет воспроизводится.

На мой взгляд, идеальным способом звукозаписи объёмного звука является бинауральный микрофон, анатомически повторяющий индивидуальную форму головы и ушей потенциального слушателя, но для применения такой записи к внешним многоканальным АС потребуется раскладка записанного материала по каналам, чтобы в конечном итоге звуковая картина соответствовала пространственной бинауральной локализации.

Большинство фильмов, видео-игр и даже музыки используют многоканальный формат объёмного звука. И моей задачей было создать такую модель наушников, которая передавала бы такой же эффект, как при прослушивании с внешней многоканальной системы.

2. Понятие объёмного звука и его восприятие человеком. Типы внешних акустических систем многоканального объёмного звука.

Объёмный звук - звук воспроизводимый акустическими системами, дающий представление о среде и позиции источников на основе бинаурального восприятия.

Факторы, формирующие ощущения объёма:

  1. Среда.

    Сюда относится сама среда распространения звуковых волн: воздух, вода, различные газы, то есть любая упругая среда. И окружение: место где находится наша звуковая сцена, включая внутренние объекты.

    В нашем случае среду не рассматриваем, так как это задача звукорежиссёра в случае кино или музыки, либо звукового движка в виртуальной сцене. Нас интересует только позиционирование.

    Для воспроизведения с внешних многоканальных АС, передача среды непростая задача. Огромную роль в этом играет и само помещение, где размещена АС. Его геометрия и акустические свойства, дополнительно накладывают свой эффект.

  2. Направление звуковых волн источников.

    Сюда можно отнести: форму распространения звуковых волн от источников и их расположение (дистанция, угол, плоскость). В данной статье мы будем рассматривать системы из статичных источников, размещённых вокруг слушателя согласно стандартам форматов surround sound и Immersive audio.

  3. Бинауральный эффект.

    Это наш фундамент по формированию 3D звука. Основными физическими факторами бинаурального слуха являются:

    • разница по АЧХ между правым и левым ухом (Interaural level differences - ILD), обусловленная дифракцией звуковых волн с различных направлений о геометрию головы, ушей и слухового прохода .

    • временные задержки (Interaural time differences ITD), обусловленные углом падения звуковой волны и расстоянием между левым и правым ухом.

    Локализация источника звука определяется исходя из трёх плоскостей:

    Рис. из «Создание базы данных импульсных характеристик головы»  Mathias Hellmich
    Рис. из «Создание базы данных импульсных характеристик головы» Mathias Hellmich
    • горизонтальной

    • фронтальной

    • вертикальной или медиальной

    Если провести замеры при помощи бинаурального микрофона в форме головы, то АЧХ одного и того же источника звука с различных направлений будут иметь свои особенности, обусловленные передаточными функциями головы (head related transfer function - HRTF). К примеру, АЧХ с тыловых каналов будут иметь характерный завал в диапазоне СЧ, потому как волна проходит через наибольшее препятствие через ухо и соответственно теряет энергию больше, а НЧ проходят дифракцию практически без потерь. Также стоит отметить акустическую тень - звуковая волна приходящая на дальнее от источника сигнала ухо.

    Высокие и средние частоты являются нашим основным компасом, а вот АЧХ НЧ остаются практически без изменений с любых направлений и не участвуют в локализации. Откуда бас невозможно понять, как не крути головой.

    Вообще, бинауральный слух во многом схож с нашим зрением, когда две плоские картинки, дополняя друг друга, формируют объём, за счёт той же разности спектра волн.

3. Типы и форматы многоканальных акустических систем.

Современные многоканальные акустические системы можно разделить на два типа:

Первый тип, получивший широкое применение - surround sound, или звук вокруг.

Представляет собой статичную систему динамиков, развёрнутую под определёнными углами вокруг слушателя, в горизонтальной плоскости. Система состоит из стереопар фронтальной, боковой и тыловой плоскостей, формирующих объём. Наиболее распространёнными форматами являются DolbyDigital и DTX 5.1, 7.1.

Схема 5.1, 7.1
Схема 5.1, 7.1

Второй тип - Immersive audio.

Иммерсивный, можно перевести как полное погружение или эффект присутствия. Схема размещения подобна surround, с добавлением стереопар верхней плоскости, что позволяет определять позицию звука не только в плоскости вокруг слушателя, но и во всей верхней полусфере. Из наиболее известных форматов стоит отметить Dolby Atmos и DTS:X.

К сожалению, на данный момент контента под этот формат довольно мало, но его возможности значительно выше, чем у surround sound.

Предложенная модель может быть применена как к Surround sound, так и к Immersive audio. А добавление излучателей нижних каналов, позволит задействовать и нижнюю полусферу, тем самым достигнув полноценной пространственной локализации вокруг слушателя, отсюда и название -"Сфера".

Конечно, для внешней АС расположение динамиков нижней плоскости задача не простая и вряд ли будет использоваться в кинозалах, но для наушников нет никаких препятствий.

4. Цифровая модель HRTF с внешних многоканальных АС .

Чтобы привести многоканальный объёмный звук к бинауральному, нам понадобится (фазово-амплитудная матрица и система фильтров, моделирующих дифракционные свойства головы и ушных раковин) модель «головы», для фиксирования передаточной функции для каждого из каналов в электронном виде.

модель B1-E Dummy Head «Binaural Enthusiast»
модель B1-E Dummy Head «Binaural Enthusiast»

Сейчас на рынке достаточно много моделей для бинауральной записи. Я бы отметил основные свойства, необходимые для наших исследований:

позиция микрофона на входе в слуховой проход

звуковая проницаемость и коэффициент отражения в соответствии с человеком

анатомичность и целостность модели

Модель искусственной головы «Кемар»
Модель искусственной головы «Кемар»

Для исключения влияния среды, замеры желательно проводить в безэховой камере, тем самым обеспечив свободное звуковое поле. В качестве источника вполне подойдёт монитор, нас интересуют прежде всего средние и высокие частоты как основа локализации звука.

БЭ камера Фото: Ken Hively/Getty Images
БЭ камера Фото: Ken Hively/Getty Images

Расположение монитора, относительно модели головы, проводится в соответствии со стандартами размещения АС в многоканальных форматах.

замеры параметров HRTF на примере бокового канала
замеры параметров HRTF на примере бокового канала

Графики АЧХ прямого и теневого сигналов фиксируем в таблице. Таким образом, мы получаем модель передаточной функции в цифровом виде. Такие исследования уже неоднократно проводились различными лабораториями, но единого стандарта HRTF до сих пор нет =).

И кстати говоря, такой метод прекрасно бы подошёл и к обычным стерео форматам для прослушивания в наушниках, выводя звук «за пределы головы», что придаст ощущения объёма, как от прослушивания с внешней стереопары. Возможно эта технология уже есть в современных портативных плеерах, но мне она не встречалась.

И ещё один очень важный момент. Возможно, передаточная функция имеет прямую зависимость от громкости звука, кривая Флетчера-Мэнсона (позднее ГОСТ Р ИСО 226-2009) тому свидетельство и полученная модель HRTF будет справедлива лишь для определённой амплитуды сигнала, при которой был замер. Чем выше частота волны, и чем ниже её амплитуда, тем больше будет потерь при дифракции о физическое тело. Иными словами, при разной громкости будут разные графики HRTF.

кривая Флетчера-Мэнсона
кривая Флетчера-Мэнсона

5. Схемы размещения излучателей.

Самая широко распространённая схема - surround sound.

DolbyDigital, DTS 7.1
DolbyDigital, DTS 7.1

Далее, идут схемы для иммерсивных форматов.

DolbyAtmos
DolbyAtmos
DTS:X
DTS:X
Формат иммерсивного аудио с задействованием нижней полусферы, дающий полный звуковой охват.
Формат иммерсивного аудио с задействованием нижней полусферы, дающий полный звуковой охват.

6. Модель наушников с 3D системой динамиков «Сфера».

Изначально, я разрабатывал модель, в которой для формирования объёмного звука хотел задействовать геометрию уха, расположив многоканальную систему динамиков вокруг, от сюда и название «Сфера», а амбушюры сделав из силиконовых прокладок, для полного погружения уха в камеру. При таком подходе, ассоциация с позиционированием источников формируется естественным образом, за счёт дифракции звуковых волн.

Стенки корпуса камеры открыты, а в качестве демпфирующего материала используется слой из мягкого тонкошерстного войлока, препятствуя таким образом появлению резонансов и эха.

акустическая камера
акустическая камера
открытый тип
открытый тип

Отдельно стоит сказать о динамиках.

Из-за отсутствия нужной модели на рынке, в прототипе я использовал типовые 40 мм драйверы из наушников от компании JBL «Quantum100», рассчитанные на стандартное рабочее расстояние до уха. В нашем случае расстояние немного больше и возможно, более целесообразно применить динамики с длинным ходом мембраны. Например, как на фото ниже. Можно конечно взять и 50 мм, но при этом увеличатся чашки, что в свою очередь повлечёт снижение эргономичности.

чертёж камеры для Immersive audio форматов
чертёж камеры для Immersive audio форматов
чертёж камеры для surround sound форматов
чертёж камеры для surround sound форматов
замеры АЧХ прототипа для каждого канала, проведённые в лаборатории RAA
замеры АЧХ прототипа для каждого канала, проведённые в лаборатории RAA

В своих исследованиях я использовал звуковую карту компании Creative SB-X3, подключив стерео-пары динамиков к соответствующим аналоговым выходам. Мощности усилителя вполне хватило для прослушивания каналов surround на достаточной громкости.

Creative SB-X3
Creative SB-X3
настройки вывода звука Creative SB-X3
настройки вывода звука Creative SB-X3

И действительно, даже выводя каналы напрямую к динамикам, локализация звуковых объектов определялась отчётливо. Но этого недостаточно. Формат, предназначенный для внешней АС, необходимо привести к бинауральному.

В своих исследованиях, я использовал программный метод с помощью EQ APO, но гораздо эффективней, на мой взгляд, была бы адаптация аппаратными средствами звуковой карты с выводом на аналог по балансной схеме.

Схема адаптации довольно проста:

  1. Проводим замеры АЧХ каждого динамика наушников, с помощью «головы».

  2. Полученные графики при помощи эквализации приводим к HRTF, полученной ранее лабораторным методом

  3. Микшируем полученный после преобразования прямой канал с тенью, разделяя их временной задержкой.

  4. Далее преобразование в аналог, усиление и вывод к динамикам

схема бинаурализации многоканального звука на примере боковой стереопары
схема бинаурализации многоканального звука на примере боковой стереопары

таким образом, в наушниках мы будем слышать многоканальный звук таким, каким его слышал наш манекен, эмулирующий слух человека с внешней АС, что и требовалось.

Может быть, такой способ подошёл бы к предыдущим мульти-драйверным моделям наушников. Но я в этом до конца не уверен. Расположение динамиков в одной плоскости не учитывает геометрию уха слушателя.

Модель Asus ROG Theta 7.1
Модель Asus ROG Theta 7.1
Модель Razer Tiamat 7.1 v.2
Модель Razer Tiamat 7.1 v.2

7. Мульти-драйверные наушники VS стерео

Зачем нужны наушники с несколькими динамиками, когда можно купить обычные стерео и также получить объём, применив программу виртуализации ?

Большинство имеющихся технологий виртуализации используют всё те же многоканальные форматы, где входящие каналы проходят обработку (эквализация, добавление реверберации, задержек) и затем микшируются в стерео сигнал.

И здесь есть два момента:

  • Если дифракцию волн о геометрию головы можно передать с помощью эквализации каналов, то интерференция в условиях геометрии уха и слухового канала, как правило не учитывается при программном микшировании, что в итоге даёт совершенно разные суммарные АЧХ, если взять замеры с головы и программный метод. Поэтому для вывода многоканала в стерео необходим более сложный физико-математический расчёт, требующий значительной вычислительной мощности DSP процессора, нежели чем простое сложение каналов.

  • Второй важный момент, это учёт индивидуальной геометрии ушей и слухового канала каждого слушателя, для передачи более качественного объема.

    В случае представленной мульти-драйверной модели, дифракция и интерференция проходит естественным образом, учитывая индивидуальность геометрии органов слуха и не нуждается в дополнительном вычислении.

8. Выводы

При помощи данного метода, становится возможным прослушивание многоканального контента таким же, как его слышит человек с внешней системы домашнего кинотеатра, с учётом индивидуальной формы ушей.

Теги:
Хабы:
Всего голосов 5: ↑3 и ↓2+1
Комментарии5

Публикации

Истории

Ближайшие события

19 сентября
CDI Conf 2024
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн