Содержание:

  1. Введение

  2. Понятие объёмного звука и его восприятие человеком.

  3. Типы и форматы многоканальных акустических систем.

  4. Цифровая модель HRTF с внешних многоканальных АС .

  5. Схемы размещения излучателей

  6. Модель наушников с 3D системой динамиков «Сфера».

  7. Мульти-драйверные наушники VS стерео.

  8. Выводы

1. Введение

Объёмный звук, в сочетании со зрительными образами, является неотъемлемой частью для создания эффекта присутствия как в виртуальной среде, так и находясь в кресле кинотеатра или перед игровым монитором. На сегодняшний день существует множество технологий позволяющих воспроизводить 3D звук как с внешней АС так и в наушниках. Основными направлениями являются многоканальные форматы и бинауральный стерео формат.

Многоканальные форматы используются в основном для внешних АС и технологически гораздо сложнее, за счёт требований к звукозаписи, акустическим системам и помещению где она будет воспроизводится.

На мой взгляд, идеальным способом звукозаписи объёмного звука является бинауральный микрофон, анатомически повторяющий индивидуальную форму головы и ушей потенциального слушателя, но для применения такой записи к внешним многоканальным АС потребуется раскладка записанного материала по каналам, чтобы в конечном итоге звуковая картина соответствовала пространственной бинауральной локализации.

Большинство фильмов, видео-игр и даже музыки используют многоканальный формат объёмного звука. И моей задачей было создать такую модель наушников, которая передавала бы такой же эффект, как при прослушивании с внешней многоканальной системы.

2. Понятие объёмного звука и его восприятие человеком. Типы внешних акустических систем многоканального объёмного звука.

Объёмный звук - звук воспроизводимый акустическими системами, дающий представление о среде и позиции источников на основе бинаурального восприятия.

Факторы, формирующие ощущения объёма:

  1. Среда.

    Сюда относится сама среда распространения звуковых волн: воздух, вода, различные газы, то есть любая упругая среда. И окружение: место где находится наша звуковая сцена, включая внутренние объекты.

    В нашем случае среду не рассматриваем, так как это задача звукорежиссёра в случае кино или музыки, либо звукового движка в виртуальной сцене. Нас интересует только позиционирование.

    Для воспроизведения с внешних многоканальных АС, передача среды непростая задача. Огромную роль в этом играет и само помещение, где размещена АС. Его геометрия и акустические свойства, дополнительно накладывают свой эффект.

  2. Направление звуковых волн источников.

    Сюда можно отнести: форму распространения звуковых волн от источников и их расположение (дистанция, угол, плоскость). В данной статье мы будем рассматривать системы из статичных источников, размещённых вокруг слушателя согласно стандартам форматов surround sound и Immersive audio.

  3. Бинауральный эффект.

    Это наш фундамент по формированию 3D звука. Основными физическими факторами бинаурального слуха являются:

    • разница по АЧХ между правым и левым ухом (Interaural level differences - ILD), обусловленная дифракцией звуковых волн с различных направлений о геометрию головы, ушей и слухового прохода .

    • временные задержки (Interaural time differences ITD), обусловленные углом падения звуковой волны и расстоянием между левым и правым ухом.

    Локализация источника звука определяется исходя из трёх плоскостей:

    Рис. из «Создание базы данных импульсных характеристик головы» Mathias Hellmich
    • горизонтальной

    • фронтальной

    • вертикальной или медиальной

    Если провести замеры при помощи бинаурального микрофона в форме головы, то АЧХ одного и того же источника звука с различных направлений будут иметь свои особенности, обусловленные передаточными функциями головы (head related transfer function - HRTF). К примеру, АЧХ с тыловых каналов будут иметь характерный завал в диапазоне СЧ, потому как волна проходит через наибольшее препятствие через ухо и соответственно теряет энергию больше, а НЧ проходят дифракцию практически без потерь. Также стоит отметить акустическую тень - звуковая волна приходящая на дальнее от источника сигнала ухо.

    Высокие и средние частоты являются нашим основным компасом, а вот АЧХ НЧ остаются практически без изменений с любых направлений и не участвуют в локализации. Откуда бас невозможно понять, как не крути головой.

    Вообще, бинауральный слух во многом схож с нашим зрением, когда две плоские картинки, дополняя друг друга, формируют объём, за счёт той же разности спектра волн.

3. Типы и форматы многоканальных акустических систем.

Современные многоканальные акустические системы можно разделить на два типа:

Первый тип, получивший широкое применение - surround sound, или звук вокруг.

Представляет собой статичную систему динамиков, развёрнутую под определёнными углами вокруг слушателя, в горизонтальной плоскости. Система состоит из стереопар фронтальной, боковой и тыловой плоскостей, формирующих объём. Наиболее распространёнными форматами являются DolbyDigital и DTX 5.1, 7.1.

Схема 5.1, 7.1

Второй тип - Immersive audio.

Иммерсивный, можно перевести как полное погружение или эффект присутствия. Схема размещения подобна surround, с добавлением стереопар верхней плоскости, что позволяет определять позицию звука не только в плоскости вокруг слушателя, но и во всей верхней полусфере. Из наиболее известных форматов стоит отметить Dolby Atmos и DTS:X.

К сожалению, на данный момент контента под этот формат довольно мало, но его возможности значительно выше, чем у surround sound.

Предложенная модель может быть применена как к Surround sound, так и к Immersive audio. А добавление излучателей нижних каналов, позволит задействовать и нижнюю полусферу, тем самым достигнув полноценной пространственной локализации вокруг слушателя, отсюда и название -"Сфера".

Конечно, для внешней АС расположение динамиков нижней плоскости задача не простая и вряд ли будет использоваться в кинозалах, но для наушников нет никаких препятствий.

4. Цифровая модель HRTF с внешних многоканальных АС .

Чтобы привести многоканальный объёмный звук к бинауральному, нам понадобится (фазово-амплитудная матрица и система фильтров, моделирующих дифракционные свойства головы и ушных раковин) модель «головы», для фиксирования передаточной функции для каждого из каналов в электронном виде.

модель B1-E Dummy Head «Binaural Enthusiast»

Сейчас на рынке достаточно много моделей для бинауральной записи. Я бы отметил основные свойства, необходимые для наших исследований:

позиция микрофона на входе в слуховой проход

звуковая проницаемость и коэффициент отражения в соответствии с человеком

анатомичность и целостность модели

Модель искусственной головы «Кемар»

Для исключения влияния среды, замеры желательно проводить в безэховой камере, тем самым обеспечив свободное звуковое поле. В качестве источника вполне подойдёт монитор, нас интересуют прежде всего средние и высокие частоты как основа локализации звука.

БЭ камера Фото: Ken Hively/Getty Images

Расположение монитора, относительно модели головы, проводится в соответствии со стандартами размещения АС в многоканальных форматах.

замеры параметров HRTF на примере бокового канала

Графики АЧХ прямого и теневого сигналов фиксируем в таблице. Таким образом, мы получаем модель передаточной функции в цифровом виде. Такие исследования уже неоднократно проводились различными лабораториями, но единого стандарта HRTF до сих пор нет =).

И кстати говоря, такой метод прекрасно бы подошёл и к обычным стерео форматам для прослушивания в наушниках, выводя звук «за пределы головы», что придаст ощущения объёма, как от прослушивания с внешней стереопары. Возможно эта технология уже есть в современных портативных плеерах, но мне она не встречалась.

И ещё один очень важный момент. Возможно, передаточная функция имеет прямую зависимость от громкости звука, кривая Флетчера-Мэнсона (позднее ГОСТ Р ИСО 226-2009) тому свидетельство и полученная модель HRTF будет справедлива лишь для определённой амплитуды сигнала, при которой был замер. Чем выше частота волны, и чем ниже её амплитуда, тем больше будет потерь при дифракции о физическое тело. Иными словами, при разной громкости будут разные графики HRTF.

кривая Флетчера-Мэнсона

5. Схемы размещения излучателей.

Самая широко распространённая схема - surround sound.

DolbyDigital, DTS 7.1

Далее, идут схемы для иммерсивных форматов.

DolbyAtmos
DTS:X
Формат иммерсивного аудио с задействованием нижней полусферы, дающий полный звуковой охват.

6. Модель наушников с 3D системой динамиков «Сфера».

Изначально, я разрабатывал модель, в которой для формирования объёмного звука хотел задействовать геометрию уха, расположив многоканальную систему динамиков вокруг, от сюда и название «Сфера», а амбушюры сделав из силиконовых прокладок, для полного погружения уха в камеру. При таком подходе, ассоциация с позиционированием источников формируется естественным образом, за счёт дифракции звуковых волн.

Стенки корпуса камеры открыты, а в качестве демпфирующего материала используется слой из мягкого тонкошерстного войлока, препятствуя таким образом появлению резонансов и эха.

акустическая камера
открытый тип

Отдельно стоит сказать о динамиках.

Из-за отсутствия нужной модели на рынке, в прототипе я использовал типовые 40 мм драйверы из наушников от компании JBL «Quantum100», рассчитанные на стандартное рабочее расстояние до уха. В нашем случае расстояние немного больше и возможно, более целесообразно применить динамики с длинным ходом мембраны. Например, как на фото ниже. Можно конечно взять и 50 мм, но при этом увеличатся чашки, что в свою очередь повлечёт снижение эргономичности.

чертёж камеры для Immersive audio форматов
чертёж камеры для surround sound форматов
замеры АЧХ прототипа для каждого канала, проведённые в лаборатории RAA

В своих исследованиях я использовал звуковую карту компании Creative SB-X3, подключив стерео-пары динамиков к соответствующим аналоговым выходам. Мощности усилителя вполне хватило для прослушивания каналов surround на достаточной громкости.

Creative SB-X3
настройки вывода звука Creative SB-X3

И действительно, даже выводя каналы напрямую к динамикам, локализация звуковых объектов определялась отчётливо. Но этого недостаточно. Формат, предназначенный для внешней АС, необходимо привести к бинауральному.

В своих исследованиях, я использовал программный метод с помощью EQ APO, но гораздо эффективней, на мой взгляд, была бы адаптация аппаратными средствами звуковой карты с выводом на аналог по балансной схеме.

Схема адаптации довольно проста:

  1. Проводим замеры АЧХ каждого динамика наушников, с помощью «головы».

  2. Полученные графики при помощи эквализации приводим к HRTF, полученной ранее лабораторным методом

  3. Микшируем полученный после преобразования прямой канал с тенью, разделяя их временной задержкой.

  4. Далее преобразование в аналог, усиление и вывод к динамикам

схема бинаурализации многоканального звука на примере боковой стереопары

таким образом, в наушниках мы будем слышать многоканальный звук таким, каким его слышал наш манекен, эмулирующий слух человека с внешней АС, что и требовалось.

Может быть, такой способ подошёл бы к предыдущим мульти-драйверным моделям наушников. Но я в этом до конца не уверен. Расположение динамиков в одной плоскости не учитывает геометрию уха слушателя.

Модель Asus ROG Theta 7.1
Модель Razer Tiamat 7.1 v.2

7. Мульти-драйверные наушники VS стерео

Зачем нужны наушники с несколькими динамиками, когда можно купить обычные стерео и также получить объём, применив программу виртуализации ?

Большинство имеющихся технологий виртуализации используют всё те же многоканальные форматы, где входящие каналы проходят обработку (эквализация, добавление реверберации, задержек) и затем микшируются в стерео сигнал.

И здесь есть два момента:

  • Если дифракцию волн о геометрию головы можно передать с помощью эквализации каналов, то интерференция в условиях геометрии уха и слухового канала, как правило не учитывается при программном микшировании, что в итоге даёт совершенно разные суммарные АЧХ, если взять замеры с головы и программный метод. Поэтому для вывода многоканала в стерео необходим более сложный физико-математический расчёт, требующий значительной вычислительной мощности DSP процессора, нежели чем простое сложение каналов.

  • Второй важный момент, это учёт индивидуальной геометрии ушей и слухового канала каждого слушателя, для передачи более качественного объема.

    В случае представленной мульти-драйверной модели, дифракция и интерференция проходит естественным образом, учитывая индивидуальность геометрии органов слуха и не нуждается в дополнительном вычислении.

8. Выводы

При помощи данного метода, становится возможным прослушивание многоканального контента таким же, как его слышит человек с внешней системы домашнего кинотеатра, с учётом индивидуальной формы ушей.