Оглавление
1. Вступление
2. Предыстория эксперимента
3. Конструкция экспериментального стенда
4. Проведение эксперимента
5. Выводы из эксперимента
6. Super HRTF
7. Методика измерений
8. Перенос данных и построение цифровой карты Super HRTF
9. Применение технологии
10. Перспективы развития
11. Заключение
1. Вступление
Восприятие пространственного звука — одна из фундаментальных особенностей человеческого слуха. Благодаря ему мы ориентируемся в окружающем мире: определяем направление шагов за спиной, приближение автомобиля, шелест листьев над головой. Это врождённая способность, отточенная эволюцией до невероятной чувствительности.
В аудиовизуальных технологиях задача воссоздания реального объёмного звучания стоит уже много десятилетий. Были созданы стереосистемы, многоканальные форматы вроде 5.1 и 7.1, технологии объёмного звука как Dolby Atmos. Каждое из этих решений вносило вклад в развитие аудио, но ни одно из них до сих пор не позволило полностью воссоздать естественное трёхмерное звуковое восприятие без сложной инфраструктуры и специфических условий.
Существенную роль в развитии пространственного звука сыграли бинауральные технологии (от лат. binauralis — «двумя ушами»), воспроизводящие акустические сигналы так, как они воспринимаются человеческим слухом .Однако классические бинауральные системы в основном рассчитаны на прослушивание в наушниках.Пользователю практически всегда рекомендуют: «наденьте наушники для правильного восприятия сцены» —прежде всего потому, что при воспроизведении через внешние акустические системы происходит перекрёстное прослушивание,при котором сигнал, предназначенный для одного уха, частично попадает на другое.Это искажает локализацию, разрушает фронтальную сцену и делает невозможным точное позиционирование источников.
Кроме того, многие технологии требуют индивидуальной подстройки под анатомию ушей: например, в системе Creative Super X-Fi используется фотография ушной раковины, чтобы автоматически сгенерировать персонализированный HRTF-профиль.
Все эти ограничения стали причиной поиска решений, не зависящих от формата воспроизведения и индивидуальных особенностей пользователя.
Между тем существует очевидная потребность создать систему пространственного звука:
- сохраняющую естественную локализацию источников,
- передающую как направление, так и глубину,
- не требующую специального оборудования у пользователя.
Именно эта проблема определила направление разработки звукового формата 3D Stereo и цифровой модели эмуляции слуха Super HRTF.
Проект, о котором пойдёт речь в статье, вырос не только из теоретических рассуждений, но и реального инженерного опыта, экспериментов и попыток ответить на простой, но важный вопрос: Как воспроизвести реалистичную трёхмерную звуковую сцену, опираясь на анатомию слуха и цифровые методы обработки?
2. Предыстория эксперимента
Идея создания звукового формата 3D Stereo родилась не в лабораторных условиях и не в рамках теоретических изысканий. Она стала результатом практических наблюдений и экспериментов.
Воспроизведение с внешней АС бинауральных записей невозможен из-за перекрёстных связей и это уже стало аксиомой. Но что если изменить подход ? Первым шагом стал домашний эксперимент: прослушивание бинауральной записи, сделанной с помощью гарнитуры с микрофонами, размещёнными на входе в слуховой проход. Воспроизведение велось через внешние акустические системы, но с изменённой схемой подачи звука, где стереопара была размещена не спереди, как в классическом варианте, а по бокам под прямыми углами.
Результат оказался неожиданно успешным: локализация источников сохранялась очень хорошо, звуковая сцена строилась естественно. Иными словами, было сделано открытие - бинауральный звук можно воспроизводить с внешней АС !
Почему это работает, возможны несколько причин:
Прямой угол к ушам: Колонки размещены строго по бокам, под 90° — каждая направлена прямо в "своё" ухо.
Естественное экранирование: Голова создаёт акустическую тень — сигнал от левой АС почти не доходит до правого уха (и наоборот), перекрёстное прослушивание минимально без фильтров.
Включается эффект Хааса: Сцена стабилизируется за счёт разницы во времени прихода звука (ITD) — локализация чёткая и не «плавает».
В домашних условиях работает - здорово. Но что будет, если схему растянуть и применить к большой группе слушателей ?
Это стало основанием для проведения второго, более масштабного эксперимента — в условиях настоящего кинозала.
Эксперимент в реальном кинозале

Для масштабной проверки работоспособности формата 3D Stereo был организован практический эксперимент в реальном кинозале на 130 мест (ширина около 12 метров).
Эксперимент помогли организовать и провести саунд-дизайнер Руслан Гапиров и его коллеги. Была использована бинауральная запись, сделанная с помощью гарнитуры. Звук воспроизводился через линейные боковые массивы колонок, размещённые вдоль левой и правой стен зала.
Основные наблюдения:
отличная передача мелких деталей (капли дождя, шаги, шорох)
чёткая локализация спереди и сзади, особенно для низких частот (поезд, машины)
естественное ощущение глубины
устойчивость сцены (широкий sweetspot) даже при смене места в зале — эффект сохранялся на ряде позиций
перевод записи из 5.1 в 7.1 не разрушал сцену, задние колонки корректно вписывались
Спорные моменты:
вертикальная локализация передавалась слабо через АС (например, гром звучал внутри головы)
фантомный центр, хоть и формировался, но не достигал эффективности как от центрального канала, что подтолкнуло к дальнейшему исследованию
Результаты подтвердили главное: передача направления, глубины, эффект присутствия — всё сохранялось даже в большом помещении. Но в то же время появилась новая проблема: несмотря на стабильную боковую и заднюю локализацию, фантомный центр оставался практически плоским. Это наблюдение стало поворотным.
Я долго размышлял, что же тут не так. Ведь с использованием гарнитуры, бинауральный звук и так максимально приближен к человеку, за счёт натуральных свойств головы и ушей.
Но не хватает ещё одного элемента в этой цепочке, может быть это слуховой проход ?
3.Конструкция стенда
Для проверки гипотезы о роли слухового прохода в формировании пространственного восприятия был разработан экспериментальный бинауральный стенд.
Главной целью было не просто внешнее сходство с анатомией, а воспроизведение акустических характеристик человеческой головы, в том числе фильтрации, дифракции и задержек.


Основные особенности конструкции:
Геометрия головы: стандартная форма, изготовлена вручную на базе анатомической 3D модели .
Ушные раковины и слуховой проход: Созданы на основе данных СКТ с применением силикона 20 Шор А, близкого по упругости к живым тканям.
Покрытие поверхности головы: Нанесён слой флока высотой 1 мм, имитирующий кожу и волосы для корректной дифракции ВЧ-компонентов.
Микрофоны: Использовались стандартные электретные капсюли WM-61 (Panasonic), установленные на месте барабанных перепонок, с сохранением естественного угла наклона.
Фиксация камеры: экшн-камера устанавливалась с помощью крепления на голову, обеспечивая одновременную запись видео и возможность точной синхронизации с аудиодорожкой.
4. Проведение эксперимента
После завершения сборки анатомического стенда была проведена серия практических экспериментов, направленных на проверку гипотезы о влиянии слухового прохода на формирование фантомного центра и точность локализации.
Условия записи:
В качестве альтернативы безэховой камере использовался открытый природный ландшафт, обеспечивающий стабильные и повторяемые условия эксперимента.
Местность: открытая лесная поляна за городом, в утренние часы, с естественным фоном и минимальными отражениями.
Оборудование: полевой рекордер Zoom F3, запись в формате Stereo Hi-Res 32 bit / 192 kHz.
Мониторинг: запись велась без прослушивания в реальном времени — анализ проводился после монтажа видеоматериала
Методика:
В качестве источника звука использовалась пластиковая баночка с капсулами, создающая чёткие щелчки и широкополосные импульсные шумы.
Перемещения источника:
плавные круговые траектории вокруг головы на разных радиусах
приближение и удаление от центра головы по фронтальной оси
перемещения вверх и вниз для оценки вертикальной локализации
5. Результаты эксперимента и выводы
Анализ записанных аудио- и видеоматериалов подтвердил ключевую гипотезу о критической роли анатомии слухового прохода в формировании полноценной пространственной сцены.
Основные результаты:
Формирование устойчивого фантомного центра
В отличие от предыдущих опытов с гарнитурой, использование модели головы с анатомически точным слуховым проходом позволило добиться стабильного фантомного центра в пространстве перед стендом. Отсутствовало ощущение «пустоты» или «размазанности» по центру — звук воспринимался как имеющий локализацию, телесность и глубину.
Сохранение горизонтальной локализации
Источники звука легко воспринимались с корректной азимутальной привязкой. При перемещении источника вокруг головы сцена оставалась целостной, без «смазывания» или провалов.
Корректная вертикальная локализация
При движении источника вверх и вниз наблюдалось чёткое ощущение высоты. Вертикальное смещение передавалось хоть и чуть менее выраженно, но заметно и воспроизводимо.
Передача глубины сцены
При приближении и удалении источника сцена не «схлопывалась» — сохранялось ощущение объёма и удалённости.
Это подтвердило способность конструкции передавать не только направление, но и дистанцию до источника.
Вывод
Эксперимент подтвердил: использование анатомически точного слухового прохода — ключевой фактор в формировании устойчивого фантомного центра и полноценной глубины сцены.
Хотя анатомические стенды существовали и ранее, именно практическая демонстрация влияния слухового прохода на центральную локализацию стала результатом этого исследования.
6. Super HRTF: причины создания и основные принципы
В процессе экспериментов я добавил к стенду собранную из двух GoPro 11 mini стерео-камеру, чтобы создавать VR-контент в формате Full 3D Stereo: визуальная сцена синхронизировалась с бинауральной записью, и в результате получалась впечатляющая иммерсивная аудиовизуальная среда. И казалось бы, вот оно - счастье, вершина Эвереста покорена !
Однако такая схема непригодна для продакшна: каждая сцена требует отдельной записи, движение звуковых источников невозможно смоделировать, а любые правки — переозвучка, рендер или синхронизация — требуют повторной съёмки в тех же условиях. При этом в современной аудиовизуальной индустрии далеко не всё записывается на микрофон — значительная часть звуков создаётся или обрабатывается на этапе постпродакшна.
Поэтому следующим шагом стал переход к цифровой модели, в которой звуковая сцена может формироваться в реальном времени, адаптироваться под положение слушателя и гибко меняться без потери достоверности. Так появилась концепция Super HRTF — расширенной цифровой модели, предназначенной для воссоздания не только направления, но и глубины, динамики и пространственной структуры сцены. В отличие от классических HRTF, ориентированных на наушники и ограниченных фиксированными углами, Super HRTF предоставляет непрерывную трёхмерную звуковую карту, пригодную для воспроизведения в любой среде.
Ключевые цели Super HRTF:
Формировать звуковую сцену в реальном времени, адаптируясь к движению источников и положению слушателя
Учитывать анатомию слуха, при этом не требуя индивидуальной калибровки —
поскольку геометрия уха влияет прежде всего на характер звучания, но не на точность позиционированияОставаться независимой от конкретного устройства воспроизведения — работает и с наушниками, и с АС
Базироваться на реальных замерах, с высокой пространственной точностью и покрытием всего акустического поля


Почему индивидуальная анатомия влияет на характер звучания, но не на позиционирование
Точность пространственной локализации определяется в первую очередь временными и амплитудными различиями между ушами (ITD и ILD), а также фазовыми и спектральными признаками, создаваемыми формой головы, торса и ушных раковин в целом. Эти признаки достаточно устойчивы в пределах человеческой анатомии — у разных людей они варьируются, но не настолько, чтобы смещать восприятие положения источника.
Что действительно меняется при индивидуальных различиях — это тембральная окраска звука, например: насколько "ярко", "глухо" или "узко" звучит источник при одном и том же угле. Но направление, глубина и движение при этом воспринимаются одинаково точно.
Поэтому Super HRTF может использоваться без персонализации:
позиция сохраняется, даже если тембровый рисунок немного отличается от индивидуального.
7. Методика измерений для построения Super HRTF

Создание расширенной базы данных для Super HRTF требует проведения систематических и высокоточных измерений акустических характеристик в трёхмерном пространстве вокруг анатомического стенда.
Основные этапы измерений:
Размещение стенда
Бинауральный стенд устанавливается в центральной точке безэховой камеры
или в максимально нейтральной акустической среде.Лабораторный стенд
Для построения базы Super HRTF используется стационарный лабораторный стенд, представляющий собой анатомически точную фигуру человека в полный рост, включая форму головы, торса и плеч, для учёта отражений и дифракции тела.Слуховые проходы — построены по СКТ-данным, включая их длину, изгиб и внутреннюю геометрию
Микрофоны — размещены строго в позиции барабанных перепонок
и оснащены эластичной микромембраной, приближённой по механическим свойствам к настоящей перепонкеВозможны реализации на базе:
конденсаторного капсюля с эластичной внешней мембраной
или динамического микрофона с малой подвижной катушкой, встроенной в натянутую гибкую поверхность
Такой тип микрофона обеспечивает реалистичную АЧХ, близкую к реальному слуховому восприятию, в отличие от жёстких измерительных мембран, не учитывающих акустические свойства живой ткани. Этот стенд используется для систематических измерений во всех направлениях, на основе которых строится непрерывная цифровая карта звучания Super HRTF.
Перемещение источника в трёх осях (X, Y, Z)
Источник звука перемещается вокруг головы по азимуту (горизонталь), высоте (вертикаль) и глубине (дистанция до головы).
Каждая позиция точно фиксируется в пространственных координатах.Базовая АЧХ
В качестве опорной принимается амплитудно-частотная характеристика при положении источника под углом 90° к уху. Она служит эталоном для расчёта эквализационных поправок во всех других направлениях.Почему базой для Super HRTF выбрано именно положение под 90° к уху
В акустике существует негласный, но широко принятый стандарт: все устройства звуковоспроизведения будь то наушники, колонки или измерительные микрофоны, тестируются и калибруются под прямым углом к уху или оси прослушивания.
АС и наушники измеряются в лабораторных условиях на оси, где мембрана обращена точно в сторону приёмника
В реальной прослушке именно эта точка даёт максимально нейтральную и устойчивую АЧХ
Даже ухо человека при восприятии сигнала сбоку получает его с наименьшими вариациями между людьми
В нашей системе 3D Stereo этот же принцип соблюдается: боковые АС в методике Super HRTF расположены строго под углом 90° к ушам, а значит — базовая АЧХ фиксируется в том же положении, что и в большинстве промышленных измерений.
Пошаговая запись
Измерения проводятся с высокой плотностью: шаг 1–2° по азимуту и высоте, на нескольких дистанциях.
Каждая точка фиксируется с полным спектром сигнала и привязкой к координатам.Нормализация
В процессе измерений амплитудно-частотные характеристики (АЧХ), снятые с разных направлений, естественно отличаются по общему уровню — из-за затухания, рассеивания, затенения и дифракции.Чтобы исключить влияние громкости на дальнейший анализ,
все АЧХ приводятся к единому опорному уровню относительно базовой характеристики, обычно в направлении под углом 90° к уху, где обеспечивается максимальная стабильность сигнала.Такая нормализация позволяет:
корректно сравнивать направления,
выделять спектральные и фазовые различия,
и синтезировать сцену с высокой точностью — без искажения глубины и баланса.
Однако человеческий слух воспринимает громкость по-разному на разных частотах, что отражено в кривых равной громкости (ISO 226, Fletcher–Munson).
кривые равной громкости ISO 226, Fletcher–Munson Поэтому при расчётах Super HRTF учитываются не только физические уровни,
но и физиологическое восприятие частот, чтобы сохранить реалистичность сцены не только по позиции, но и по звучанию.После завершения измерений и нормализации АЧХ,
следующим этапом становится перенос всей базы в программную среду
и построение трёхмерной цифровой карты звучания.8. Перенос данных и построение цифровой карты Super HRTF
Этапы переноса и обработки
Импорт и структурирование данных
Каждая запись содержит координаты источника (азимут, высота, расстояние)
и пары АЧХ для левого и правого уха.
Все данные организуются в единую структуру с возможностью быстрой навигации и обращения к любой точке пространства.Нормализация амплитуды
Чтобы избежать неестественных скачков громкости, все данные приводятся к единому уровню относительно базовой АЧХ (направление 90° к уху).
Это обеспечивает согласованность сцены и позволяет сравнивать спектры по форме, а не по уровню.Расчёт эквализационных поправок
Для каждой точки рассчитывается отклонение спектра от базового направления,
что даёт возможность динамически адаптировать звучание при воспроизведении
и точно управлять направлением и спектральной окраской сцены.приведение базовой АЧХ к целевой кривой
Нейросетевая интерполяция
Даже при высокой плотности замеров остаются промежуточные направления,
где прямые измерения отсутствуют. Чтобы сцена оставалась непрерывной и плавной,
в Super HRTF применяется нейросетевая интерполяция, обученная на реальных данных.Алгоритм:
Нейросеть изучает закономерности изменения АЧХ в зависимости от координат
Генерирует достоверные спектры для промежуточных точек
Сохраняет физическую достоверность и спектральную окраску,
соответствующую соседним измеренным значениям
В результате формируется живая цифровая карта звучания - трёхмерная сетка, охватывающая все направления и расстояния, которая используется для динамического построения сцены в реальном времени.
9. Применение технологии Super HRTF

Разработка Super HRTF открывает широкие возможности для применения трёхмерного звука в цифровой среде.
Технология может использоваться в любых задачах, где требуется реалистичная пространственная сцена с управлением направлением, глубиной и движением — в реальном времени и без необходимости аппаратной персонализации.
Кино
Построение объёмных звуковых сцен без громоздких многоканальных систем
Представление аудиосцены как трёхмерного пространства с независимыми звуковыми объектами
Воспроизведение через боковые и тыловые каналы без разрушения сцены
Интеграция в классические кинозалы без серьёзной модернизации инфраструктуры
VR и AR
Динамическая адаптация сцены при движении пользователя
Корректная передача расстояния и направления при любом угле обзора
Иммерсивность без калибровки и без необходимости индивидуального HRTF-профиля
Поддержка обычных наушников и внешних АС
Игры и интерактивные среды
Полноценная локализация на всех осях: азимут, высота, глубина
Навигация через звук: определение положения объектов, врагов, событий
Внедрение через API в игровые движки: Unity, Unreal Engine и др.
Улучшение восприятия в киберспортивных, тактических и иммерсивных играх
Музыка и звукорежиссура
Создание трёхмерных музыкальных миксов с размещением звуков не только по панораме, но и по глубине и высоте
Симуляция концертного пространства: эффект присутствия внутри сцены
Новые формы композиции: пространство как выразительный элемент
Работа в DAW и секвенсорах через модульную интеграцию
Образование, медицина, доступность
Аудиосимуляторы и тренажёры слуха
Обучающие среды с реалистичной звуковой моделью
Звуковая навигация для пользователей с нарушением зрения
Пространственная озвучка интерфейсов и голосовых систем
10. Перспективы развития
Проект 3D Stereo и цифровая модель Super HRTF открывают не просто новую страницу,
а закладывают фундамент для переосмысления самого подхода к пространственному аудио.
Универсальность без персонализации
В отличие от классических HRTF, Super HRTF работает «из коробки» для большинства пользователей, не требуя адаптации под индивидуальную анатомию.Динамическая сцена в реальном времени
Звуковые объекты живут и движутся в сцене, адаптируясь к положению слушателя.
Глубина и направление ощущаются интуитивно — как в реальности.Интеграция без инфраструктурных требований
Поддержка игровых и VR/AR-платформ, кино и DAW-систем —
всё реализуется программно, без необходимости в сложной аппаратной базе.Применение в медицине и образовании
Super HRTF даёт основу для нового поколения обучающих, восстанавливающих и доступных аудиосред.
11. Заключение
3D Stereo — это не просто метод записи,
а новый звуковой формат, воссоздающий пространственную сцену
на основе природного бинаурального восприятия и анатомических принципов слуха.
Его основой служит Super HRTF — цифровая модель, построенная на точных измерениях и предназначенная для динамической работы в реальном времени.
Она не требует персонализации и не зависит от конкретного устройства воспроизведения:
сцена строится там, где находится слушатель, а не в рендере.
Пространственный звук становится доступным, масштабируемым и реалистичным, пригодным для кино, игр, VR, музыкального продакшна и образования — в любой цифровой среде, где важны глубина, локализация и эффект присутствия.