Содержание:
Введение
Понятие объёмного звука и его восприятие человеком.
Типы и форматы многоканальных акустических систем.
Цифровая модель HRTF с внешних многоканальных АС .
Схемы размещения излучателей
Модель наушников с 3D системой динамиков «Сфера».
Мульти-драйверные наушники VS стерео.
Выводы
1. Введение
Объёмный звук, в сочетании со зрительными образами, является неотъемлемой частью для создания эффекта присутствия как в виртуальной среде, так и находясь в кресле кинотеатра или перед игровым монитором. На сегодняшний день существует множество технологий позволяющих воспроизводить 3D звук как с внешней АС так и в наушниках. Основными направлениями являются многоканальные форматы и бинауральный стерео формат.
Многоканальные форматы используются в основном для внешних АС и технологически гораздо сложнее, за счёт требований к звукозаписи, акустическим системам и помещению где она будет воспроизводится.
На мой взгляд, идеальным способом звукозаписи объёмного звука является бинауральный микрофон, анатомически повторяющий индивидуальную форму головы и ушей потенциального слушателя, но для применения такой записи к внешним многоканальным АС потребуется раскладка записанного материала по каналам, чтобы в конечном итоге звуковая картина соответствовала пространственной бинауральной локализации.
Большинство фильмов, видео-игр и даже музыки используют многоканальный формат объёмного звука. И моей задачей было создать такую модель наушников, которая передавала бы такой же эффект, как при прослушивании с внешней многоканальной системы.
2. Понятие объёмного звука и его восприятие человеком. Типы внешних акустических систем многоканального объёмного звука.
Объёмный звук - звук воспроизводимый акустическими системами, дающий представление о среде и позиции источников на основе бинаурального восприятия.
Факторы, формирующие ощущения объёма:
Среда.
Сюда относится сама среда распространения звуковых волн: воздух, вода, различные газы, то есть любая упругая среда. И окружение: место где находится наша звуковая сцена, включая внутренние объекты.
В нашем случае среду не рассматриваем, так как это задача звукорежиссёра в случае кино или музыки, либо звукового движка в виртуальной сцене. Нас интересует только позиционирование.
Для воспроизведения с внешних многоканальных АС, передача среды непростая задача. Огромную роль в этом играет и само помещение, где размещена АС. Его геометрия и акустические свойства, дополнительно накладывают свой эффект.
Направление звуковых волн источников.
Сюда можно отнести: форму распространения звуковых волн от источников и их расположение (дистанция, угол, плоскость). В данной статье мы будем рассматривать системы из статичных источников, размещённых вокруг слушателя согласно стандартам форматов surround sound и Immersive audio.
Бинауральный эффект.
Это наш фундамент по формированию 3D звука. Основными физическими факторами бинаурального слуха являются:
разница по АЧХ между правым и левым ухом (Interaural level differences - ILD), обусловленная дифракцией звуковых волн с различных направлений о геометрию головы, ушей и слухового прохода .
временные задержки (Interaural time differences ITD), обусловленные углом падения звуковой волны и расстоянием между левым и правым ухом.
Локализация источника звука определяется исходя из трёх плоскостей:
Рис. из «Создание базы данных импульсных характеристик головы» Mathias Hellmich горизонтальной
фронтальной
вертикальной или медиальной
Если провести замеры при помощи бинаурального микрофона в форме головы, то АЧХ одного и того же источника звука с различных направлений будут иметь свои особенности, обусловленные передаточными функциями головы (head related transfer function - HRTF). К примеру, АЧХ с тыловых каналов будут иметь характерный завал в диапазоне СЧ, потому как волна проходит через наибольшее препятствие через ухо и соответственно теряет энергию больше, а НЧ проходят дифракцию практически без потерь. Также стоит отметить акустическую тень - звуковая волна приходящая на дальнее от источника сигнала ухо.
Высокие и средние частоты являются нашим основным компасом, а вот АЧХ НЧ остаются практически без изменений с любых направлений и не участвуют в локализации. Откуда бас невозможно понять, как не крути головой.
Вообще, бинауральный слух во многом схож с нашим зрением, когда две плоские картинки, дополняя друг друга, формируют объём, за счёт той же разности спектра волн.
3. Типы и форматы многоканальных акустических систем.
Современные многоканальные акустические системы можно разделить на два типа:
Первый тип, получивший широкое применение - surround sound, или звук вокруг.
Представляет собой статичную систему динамиков, развёрнутую под определёнными углами вокруг слушателя, в горизонтальной плоскости. Система состоит из стереопар фронтальной, боковой и тыловой плоскостей, формирующих объём. Наиболее распространёнными форматами являются DolbyDigital и DTX 5.1, 7.1.
![Схема 5.1, 7.1 Схема 5.1, 7.1](https://habrastorage.org/getpro/habr/upload_files/be0/2d5/632/be02d5632d67511d02b8200e8c55aa0f.png)
Второй тип - Immersive audio.
Иммерсивный, можно перевести как полное погружение или эффект присутствия. Схема размещения подобна surround, с добавлением стереопар верхней плоскости, что позволяет определять позицию звука не только в плоскости вокруг слушателя, но и во всей верхней полусфере. Из наиболее известных форматов стоит отметить Dolby Atmos и DTS:X.
![](https://habrastorage.org/getpro/habr/upload_files/e15/73d/c34/e1573dc34d824bb504959babefb86e7f.png)
К сожалению, на данный момент контента под этот формат довольно мало, но его возможности значительно выше, чем у surround sound.
Предложенная модель может быть применена как к Surround sound, так и к Immersive audio. А добавление излучателей нижних каналов, позволит задействовать и нижнюю полусферу, тем самым достигнув полноценной пространственной локализации вокруг слушателя, отсюда и название -"Сфера".
Конечно, для внешней АС расположение динамиков нижней плоскости задача не простая и вряд ли будет использоваться в кинозалах, но для наушников нет никаких препятствий.
4. Цифровая модель HRTF с внешних многоканальных АС .
Чтобы привести многоканальный объёмный звук к бинауральному, нам понадобится (фазово-амплитудная матрица и система фильтров, моделирующих дифракционные свойства головы и ушных раковин) модель «головы», для фиксирования передаточной функции для каждого из каналов в электронном виде.
![модель B1-E Dummy Head «Binaural Enthusiast» модель B1-E Dummy Head «Binaural Enthusiast»](https://habrastorage.org/getpro/habr/upload_files/0ff/f5e/5ef/0fff5e5efa13f81f4c0914ca16359404.jpg)
Сейчас на рынке достаточно много моделей для бинауральной записи. Я бы отметил основные свойства, необходимые для наших исследований:
○ позиция микрофона на входе в слуховой проход
○ звуковая проницаемость и коэффициент отражения в соответствии с человеком
○ анатомичность и целостность модели
![Модель искусственной головы «Кемар» Модель искусственной головы «Кемар»](https://habrastorage.org/getpro/habr/upload_files/d26/516/a3d/d26516a3d6a3195a8f2581dccced9a22.png)
Для исключения влияния среды, замеры желательно проводить в безэховой камере, тем самым обеспечив свободное звуковое поле. В качестве источника вполне подойдёт монитор, нас интересуют прежде всего средние и высокие частоты как основа локализации звука.
![БЭ камера Фото: Ken Hively/Getty Images БЭ камера Фото: Ken Hively/Getty Images](https://habrastorage.org/getpro/habr/upload_files/671/ea5/bf3/671ea5bf34c8bc8591525861a5a42c18.png)
Расположение монитора, относительно модели головы, проводится в соответствии со стандартами размещения АС в многоканальных форматах.
Графики АЧХ прямого и теневого сигналов фиксируем в таблице. Таким образом, мы получаем модель передаточной функции в цифровом виде. Такие исследования уже неоднократно проводились различными лабораториями, но единого стандарта HRTF до сих пор нет =).
И кстати говоря, такой метод прекрасно бы подошёл и к обычным стерео форматам для прослушивания в наушниках, выводя звук «за пределы головы», что придаст ощущения объёма, как от прослушивания с внешней стереопары. Возможно эта технология уже есть в современных портативных плеерах, но мне она не встречалась.
И ещё один очень важный момент. Возможно, передаточная функция имеет прямую зависимость от громкости звука, кривая Флетчера-Мэнсона (позднее ГОСТ Р ИСО 226-2009) тому свидетельство и полученная модель HRTF будет справедлива лишь для определённой амплитуды сигнала, при которой был замер. Чем выше частота волны, и чем ниже её амплитуда, тем больше будет потерь при дифракции о физическое тело. Иными словами, при разной громкости будут разные графики HRTF.
![кривая Флетчера-Мэнсона кривая Флетчера-Мэнсона](https://habrastorage.org/getpro/habr/upload_files/3a8/e10/d7a/3a8e10d7ac3fec318303de70930977ff.jpg)
![](https://habrastorage.org/getpro/habr/upload_files/381/8bb/8b3/3818bb8b3e91c77b672db7f1f55273b4.png)
5. Схемы размещения излучателей.
Самая широко распространённая схема - surround sound.
Далее, идут схемы для иммерсивных форматов.
6. Модель наушников с 3D системой динамиков «Сфера».
Изначально, я разрабатывал модель, в которой для формирования объёмного звука хотел задействовать геометрию уха, расположив многоканальную систему динамиков вокруг, от сюда и название «Сфера», а амбушюры сделав из силиконовых прокладок, для полного погружения уха в камеру. При таком подходе, ассоциация с позиционированием источников формируется естественным образом, за счёт дифракции звуковых волн.
Стенки корпуса камеры открыты, а в качестве демпфирующего материала используется слой из мягкого тонкошерстного войлока, препятствуя таким образом появлению резонансов и эха.
![](https://habrastorage.org/getpro/habr/upload_files/b99/1e5/47b/b991e547b03c73f9d575120539eba86d.jpg)
![акустическая камера акустическая камера](https://habrastorage.org/getpro/habr/upload_files/c87/332/19e/c8733219e13c68f7f85e9f22c3a0cc29.jpg)
![открытый тип открытый тип](https://habrastorage.org/getpro/habr/upload_files/e6c/041/9ba/e6c0419ba722aa6b24a73b05c3d9bede.jpg)
![](https://habrastorage.org/getpro/habr/upload_files/8c3/965/0e5/8c39650e55485cdb8bdc23722519c791.jpg)
Отдельно стоит сказать о динамиках.
Из-за отсутствия нужной модели на рынке, в прототипе я использовал типовые 40 мм драйверы из наушников от компании JBL «Quantum100», рассчитанные на стандартное рабочее расстояние до уха. В нашем случае расстояние немного больше и возможно, более целесообразно применить динамики с длинным ходом мембраны. Например, как на фото ниже. Можно конечно взять и 50 мм, но при этом увеличатся чашки, что в свою очередь повлечёт снижение эргономичности.
![](https://habrastorage.org/getpro/habr/upload_files/2bc/105/4c7/2bc1054c74c156ee71be3e96ecee8769.jpg)
![чертёж камеры для Immersive audio форматов чертёж камеры для Immersive audio форматов](https://habrastorage.org/getpro/habr/upload_files/752/51b/936/75251b9363216089700ee0c585c0abf8.jpg)
![чертёж камеры для surround sound форматов чертёж камеры для surround sound форматов](https://habrastorage.org/getpro/habr/upload_files/40a/bb5/43e/40abb543e560540e166fce2424498035.jpg)
![замеры АЧХ прототипа для каждого канала, проведённые в лаборатории RAA замеры АЧХ прототипа для каждого канала, проведённые в лаборатории RAA](https://habrastorage.org/getpro/habr/upload_files/7a3/076/bd0/7a3076bd0465f650b5623fcaaf007b08.jpg)
В своих исследованиях я использовал звуковую карту компании Creative SB-X3, подключив стерео-пары динамиков к соответствующим аналоговым выходам. Мощности усилителя вполне хватило для прослушивания каналов surround на достаточной громкости.
![Creative SB-X3 Creative SB-X3](https://habrastorage.org/getpro/habr/upload_files/e8c/c00/918/e8cc00918b6fc877133560c307b06573.jpg)
![настройки вывода звука Creative SB-X3 настройки вывода звука Creative SB-X3](https://habrastorage.org/getpro/habr/upload_files/77a/81f/f6d/77a81ff6d7819e08ab6c9121b5328600.jpg)
И действительно, даже выводя каналы напрямую к динамикам, локализация звуковых объектов определялась отчётливо. Но этого недостаточно. Формат, предназначенный для внешней АС, необходимо привести к бинауральному.
В своих исследованиях, я использовал программный метод с помощью EQ APO, но гораздо эффективней, на мой взгляд, была бы адаптация аппаратными средствами звуковой карты с выводом на аналог по балансной схеме.
Схема адаптации довольно проста:
Проводим замеры АЧХ каждого динамика наушников, с помощью «головы».
Полученные графики при помощи эквализации приводим к HRTF, полученной ранее лабораторным методом
Микшируем полученный после преобразования прямой канал с тенью, разделяя их временной задержкой.
Далее преобразование в аналог, усиление и вывод к динамикам
![схема бинаурализации многоканального звука на примере боковой стереопары схема бинаурализации многоканального звука на примере боковой стереопары](https://habrastorage.org/getpro/habr/upload_files/9a3/4c0/20b/9a34c020b39e1e8c4e9deee603576846.jpg)
таким образом, в наушниках мы будем слышать многоканальный звук таким, каким его слышал наш манекен, эмулирующий слух человека с внешней АС, что и требовалось.
Может быть, такой способ подошёл бы к предыдущим мульти-драйверным моделям наушников. Но я в этом до конца не уверен. Расположение динамиков в одной плоскости не учитывает геометрию уха слушателя.
![Модель Asus ROG Theta 7.1 Модель Asus ROG Theta 7.1](https://habrastorage.org/getpro/habr/upload_files/492/f2e/96b/492f2e96b1de0541060f7d81ce5e55f7.jpg)
![Модель Razer Tiamat 7.1 v.2 Модель Razer Tiamat 7.1 v.2](https://habrastorage.org/getpro/habr/upload_files/0b1/1ca/680/0b11ca680dcf69688d841195ffc7b999.jpg)
7. Мульти-драйверные наушники VS стерео
Зачем нужны наушники с несколькими динамиками, когда можно купить обычные стерео и также получить объём, применив программу виртуализации ?
Большинство имеющихся технологий виртуализации используют всё те же многоканальные форматы, где входящие каналы проходят обработку (эквализация, добавление реверберации, задержек) и затем микшируются в стерео сигнал.
И здесь есть два момента:
Если дифракцию волн о геометрию головы можно передать с помощью эквализации каналов, то интерференция в условиях геометрии уха и слухового канала, как правило не учитывается при программном микшировании, что в итоге даёт совершенно разные суммарные АЧХ, если взять замеры с головы и программный метод. Поэтому для вывода многоканала в стерео необходим более сложный физико-математический расчёт, требующий значительной вычислительной мощности DSP процессора, нежели чем простое сложение каналов.
Второй важный момент, это учёт индивидуальной геометрии ушей и слухового канала каждого слушателя, для передачи более качественного объема.
В случае представленной мульти-драйверной модели, дифракция и интерференция проходит естественным образом, учитывая индивидуальность геометрии органов слуха и не нуждается в дополнительном вычислении.
8. Выводы
При помощи данного метода, становится возможным прослушивание многоканального контента таким же, как его слышит человек с внешней системы домашнего кинотеатра, с учётом индивидуальной формы ушей.