Как стать автором
Обновить

Комментарии 92

Зачем вам звук из правой колонки в левом ухе?! У вас есть стереозапись, где в каждом канале уже присутствует необходимая сумма звуковых волн!

Затем, что, как написано в посте, стереозапись сведена для воспроизведения на колонках, а не в наушниках. Чтобы в уши приходила нужная сумма звуковых волн, на наущники и на колонки нужно подавать разный сигнал.

НЛО прилетело и опубликовало эту надпись здесь

Не равно ибо дело не только в переотражениях, они лишь для реалистичности картины. А по факту в безэховой камере мы один монитор слышим двумя ушами, между которыми есть некое расстояние и голова :-) то есть в зависимости от угла будет задержка и частотная коррекция.
Для звукорежиссёра разница между мониторами и наушниками огромна. В наушниках можно выполнить какую-то часть работы, но с панарамированием и обьёмом, работают исключительно через мониторы, причём разные.

работают исключительно через мониторы, причём разные.


можно расшифровать часть фразы про «причём разные»?
работают исключительно через мониторы, причём разные.
можно расшифровать часть фразы про «причём разные»?


Скажите, те умнейших чела, что поставили моему вопросу 2 минуса:

В вашей вселенной все являются экспертами по звуку? Вы представить не можете, что кто-то не понимает столь простейших по вашему мнению вещей?

Вы можете простым языком объяснить несведущему человеку, что такое «работают через разные мониторы».

В каком смысле они разные?
НЛО прилетело и опубликовало эту надпись здесь
Мониторы бывают ближнего, среднего и дальнего поля.


Означает ли, что звукорежиссеры проверяют все на 3 версиях?

Мониторы дальнего поля — полнодиапазонные… Для обычных помещений… Обычно выглядят как колонки с парой 12-15" динамиков в каждом кабинете. Пригодны для домашнего применения в качестве нормальных АС..


Ну вот смотрите. Сижу я за компьютером в небольшом кабинете.
Хочу иметь не ущербный звук, могу себе позволить хорошее оборудование.

Вы меня убедили, что дального поля мониторы — то что нужно по звуку.

Однако меня смущает слово «дальнего».

Как это будет выглядеть в небольшом кабинете (там место буквально на 2 компьютерных стола плюс небольшой проход, но я там один)?

Есть ли смысл брать технику «дальнего поля» в столь небольшое помещение?

НЛО прилетело и опубликовало эту надпись здесь

ИМХО дилетанта следует ещё учитывать рабочий уровень громкости АС

НЛО прилетело и опубликовало эту надпись здесь
Тут проблема ещё и в том, что корректное воспроизведение ниже пары сотен Гц требует ещё и помещения, отличного от типовой комнаты в квартире.
В студиях контрольные мониторы тоже ставят в достаточно больших помещениях.
НЛО прилетело и опубликовало эту надпись здесь
Не соглашусь.
Получить внятный звук на десятках-сотнях Гц сложно и, чёрт побери, дорого.
Во-первых, нужны большие динамики, т. к. для обеспечения звукового давления, аналогичного средним частотам нужно большое объёмное смещение (то есть площадь диффузора * на его ход). Кроме того, см. кривые равной громкости: чтобы звук на 40Гц было слышно с аналогичной громкостью, как 1кГц, звуковое давление должно быть значительно выше. Это дорого,
Идём дальше. Для исключения стоячих волн в помещении нужно либо поглощение, либо определённые виды коррекции АЧХ.
Поглощение на десятках Гц проблематично без существенного уменьшения объёма комнаты, т. к. поглотитель нужно размещать в «зонах максимальной скорости», а это 1/4 длины волны от стен, почти метр для 100Гц!
Активная коррекция сравнительно легко делается для единственной точки в пространстве (правда с оговорками).
Если нужна более широкая зона, то есть вариант «DBA»: en.wikipedia.org/wiki/Double_bass_array
Но для этого нужно несколько сабвуферов, что тоже не дёшево и влезет не в любую комнату, особенно если в квартире живёт кто-то ещё.
НЛО прилетело и опубликовало эту надпись здесь
Кроме того, см. кривые равной громкости: чтобы звук на 40Гц было слышно с аналогичной громкостью, как 1кГц, звуковое давление должно быть значительно выше. Это дорого,

Почему это дорого? По деньгам?
Деньги, габариты, масса.
НЛО прилетело и опубликовало эту надпись здесь
да при том что
работу АС можно считать работой в свободном поле, что в точности равно подаче сигнала в наушниках..
а это мягко говоря не так, и отражений даже в контрольной комнате предостаточно, по этому я и привожу в пример безэховую, где всёравно подача не эквивалентна, по чисто физиологическим причинам.

Вы слишком категоричны в своих суждениях, видимо в силу молодости.
Мониторы разные могут быть даже в пределах одного поля из-за особенностей восприятия в диаппазоне\ах раздела, в них имеется необходимость и по этой же причине всю работу нельзя сделать исключительно в дальнем поле.
Да и сами эти поля сегодня существуют не от не совершенства акустических систем, но для некоторых практических потребностей сведения.
НЛО прилетело и опубликовало эту надпись здесь
Я скажу ещё больше, отражения есть даже в безэховой камере.
Если посмотреть на те импульсы от IRCAM, то там кое-что видно, правда не факт, что это отражения от стен. Возможно работает оборудование, используемое в рамках исследования — собственно монитор, сервопривод, стул и т. п.
По словам людей, работавших в камерах (в т. ч. ещё более серьёзных), стоячие волны на НЧ заметны на измерениях абсолютно в любой безэховой камере, следовательно отражения есть.

Не стал писать об этом в основном тексте, но судя по всему, для ещё большего «эффекта присутствия» имеет смысл добавить как раз немного отражений. В Dolby Headphones они есть. Там на выбор несколько вариантов обработки, самый «прямой» из них называется как-то типа «studio», и там отражения тоже есть (по анализу импульсной характеристики), хотя ухом практически не слышны.

"отличий в этом случает нет и нет даже предпосылок для отличий"


Ты хочешь нас убедить, что звук из левой колонки не попадает в правое ухо, а из правой колонки — в левое?
Законы акустики с тобой не согласны.
А вот в наушниках подобного смешения каналов нет. Потому там звук и отличается.

НЛО прилетело и опубликовало эту надпись здесь

Никогда не приходилось встречать записи, в которых вокал, например, есть только в одном канале? Автор про это пишет.

«записи, в которых вокал, например, есть только в одном канале»
Обычно это такой художественный приём, его не нужно «исправлять».
Если совсем это сложно слушать в наушниках, то либо просто в моно слушать, либо и правда, только на колонках.
Кроме того, у автора есть несколько наивнейших допущений.
Например, что звукорежиссёры и всякие продюссеры, которые говорят, как звукорежам работать, не знают, сколько телефонов продаётся в мире и сколько людей слушают музыку в наушниках.

звукорежиссёр при подготовке записи
«То есть звукорежиссёр при подготовке записи делает всё, чтобы она правильно (в соответствии с задумками автора) звучала в студийных мониторах, а как оно будет в наушниках — с большой вероятностью даже не проверит.»

на самом деле выглядит так
Звукорежиссёр при подготовке записи делает всё, чтобы она правильно (в соответствии с задумками продюссера) звучала на любом говне, а как оно будет в наушниках или колонках за штуку баксов — с большой вероятностью даже не проверит.

«Да и вообще, эквализация под свои вкусы никогда не помешает.»
А вот это в рамочку :)

Его не нужно исправлять, когда оно играет из колонок. Потому что звук все равно дойдет до обоих ушей. А когда ты в наушниках, начинает казаться, что ты оглох на одно ухо или что наушники сломались. Так себе ощущения, я вам скажу.


Если совсем это сложно слушать в наушниках, то либо просто в моно слушать, либо и правда, только на колонках.

Либо в наушниках, но с коррекцией, как у автора. Почему вы такой вариант не рассматриваете в принципе?

Конечно не рассматриваю. Даже автор прямым текстом пишет:
«Лучшего пространственного разрешения в наушниках я пока не слышал.»
(«лучшего, чем до того, ведь я правильно понимаю?»)
Скажите, а вы рассматриваете вариант, что сотни и тысячи инженеров и музыкантов за очень неплохие деньги уже работали над подобными проблемами?
Конечно работали. Не просто так это исследование HRTF'ов в IRCAM проводилось совместно с AKG. Подозреваю, что именно на их деньги.
И существует даже небольшое количество «бинауральных записей», созданных именно ради объёмного звучания в наушниках.
Но насколько я знаю, там как правило именно *запись* производилась с помощью искуственной головы с микрофончиками в ушных раковинах.

Пагадити. Про импульс я понял (ну так, но вроде достаточно для старта, если что). А что делать с реальным музыкальным файлом? Тоже через gnu octave его гонять? Или у вас в гитхабе волшебный инструмент, а я мякотку и упустил?

… я буду дочитывать до конца. Понял, зачем нужен stereo convolver, спасибо.

Воткнуть в плеер плагин от Dolby (через VST bridge, как я понимаю). Тут автор показывает, как такой плагин в принципе пишется.

НЛО прилетело и опубликовало эту надпись здесь

HeSUVi с GSX- шикарно работает
Причем даже на встроенной звуковушке 3D есть.
С хорошей картой и, главное, хорошими наушниками звучит лучше, чем Dolby Atmos Headphones, IMHO.
Ну и не привязана к источнику звука

В свое время исследовал рынок по этому вопросу, самое годное (с т.зр. звука) решение здесь: newaudiotechnology.com
Тестировал их Sound Card Pro, там можно выбирать виртуализацию больших систем (а ля 20 колонок, и не только в горизонтальном поле) — и у них это реально работает, прям слышно.

Звук у них на голову лучше HeSuVi — а это ближайшее доступное что есть.

Но самая большая проблема (на ноябрь 19 года) — то что после перезагрузки их программа ломается, звук начинает производить с треском. Очень надеюсь, что починили, давно не проверял.
Статья — занятная и список материалов в конце понравился тоже.
Но, как понимаю, все сводится к FIR с разными коэффициентами для левого и правого канала?
Каков размер импульса? Вряд ли больше 30мс, тогда и FFT с его погрешностями, задержками и стыковкой кадров — не нужен, все, по идее, делается в лоб, через линейную свертку.
Да, там длинный фильтр не нужен, т. к. на НЧ оба уха получают идентичный сигнал.
В плане «приготовления» фильтра — тоже верно, FFT «не нужен». Собственно в конечном итоге я и вычислял фильтр более «прямым» методом (МНК).
При realtime'овой обработке тоже можно считать свёртку «в лоб», но есть нюансы.
1. Более ресурсоёмко, даже при сравнительно небольшой длине фильтра.
2. Не всегда даёт более высокую точность по сравнению с хорошо реализованной FFT-свёрткой.
3. Банально существует гораздо меньше готовых инструментов. Stereo Convolver можно взять и скачать, а аналогичный по функциональности плагин, выполняющий свёртку во временной области придётся писать (как минимум — обёртку над готовыми движками). Ничего архисложного, но учитывая п.2, на это жаль времени.
В железе, в бюджетных DSP типа ADAU1701, 1401 и так далее — делается в лоб.
На ПК с SSE должно быть еще шустрее. Даже МК делают mac операцию за 1 такт.

С FFT разве нет сложностей с краями кадра и не пришлось делать перехлесты и прочий «кроссфэйдинг»?

Казалось, что плагинов, которые умеют в свертку действительно много. На столько, что они просто есть даже в бюджетных аудиоредакторах, как незначительный пункт меню. Поэтому их и трудно найти — под рукой.
C FFT, насколько я знаю, именно так и делают — перехлёст с наложением подходящей оконной функции. И насколько я знаю, если всё сделано правильно, то получается свести погрешности к ошибкам округления (как и в случае свёртки «в лоб»).

Плагинов для свёртки — да, много, но 90% из них — как раз используют FFT, а другие 99% — не умеют накладывать один фильтр на «прямой» сигнал, а другой — на «перекрёстный», то есть непригодны «из коробки» для поставленной задачи (crossfeed с HRTF).
Можно организовать систему плагинов, примерно так:
— скопировать стереопару, то есть получить два идентичных стереосигнала — A(t) и A'(t),
— поменять в A'(t) каналы местами,
— исходную пару A(t) обработать одним фильтром (либо не обрабатывать вообще),
— клонированную пару A'(t) — обработать другим фильтром,
— снова сложить эти два стереосигнала.
Но подобное в realtime можно сделать тоже далеко не в любом плеере. С гирляндами vst-плагинов, прикрученными к плееру (уже не помню, с какими именно я это пробовал) у меня был в своё время негативный опыт, хотя возможно, в 2021 году с этим лучше.
Просто сейчас я не вижу в этом необходимости — мне проще взять Stereo Convolver и просто использовать.
Явной разницы между фильтрацией «в лоб» и через Stereo Convolver я не услышал. Но да, на досуге будет интересно сравнить более вдумчиво на слух и на глаз (в аудиоредактори или в том же GNU Octave).
VST-то как раз делается несложно из примеров, которые дает Steinberg. И свертку в лоб с разными коэффициентами на каждый канал можно сделать за пару вечеров.

Другое дело, что плагин построения АЧХ проверяемого плагина довольно непросто найти, есть только 32 бит.
Я не говорю, что сложно, я говорю, что это не особо нужно, по крайней мере, мне.

Как вариант — взять тот же Stereo Convolver (по ссылке в посте выложен код на сях) и вместо FFT вкрутить обычную свёртку. Это и за один вечер не проблема сделать, даже если немного повозиться с оптимизацией.

А ради построения АЧХ что-то писать — вообще не вижу смысла (если не на коммерческой основе). Достаточно пропустить через испытуемый плагин единичный импульс и посмотреть FFT в любом аудио-редакторе.
C FFT, насколько я знаю, именно так и делают — перехлёст с наложением подходящей оконной функции.
Нет ни перехлёста (применительно к исходному сигналу), ни наложения оконной функции. Подробнее здесь.
Спасибо, почитал.
Видимо когда писал сообщение выше, смутно вспоминались какие-то другие методы. Возможно, WOLA, упоминавшийся в этой статье на Вики :)

Есть как минимум два подхода для реализации быстрой свертки. В предложеном вами нет перехлеста исходного сигнала, но нужно обрабатывать перехлесты промежуточных сверток.
Альтернативный подход - overlap save предполагает перехлест исходных данных, но не требует дополнительной обработки.

Да, вы правы, в своё время алгоритм показался мне интуитивно понятным для реализации и я не потрудился изучить альтернативы. Похоже что второй подход проще в реализации, обязательно его попробую.

Посмотрел внимательнее, как работает Stereo Convolver. Да он работает плохо!
Ошибки порядка 0.05 (и это не фиксированная аддитивная или мультипликативная ошибка). Стоит поискать более подходящий плагин.
Тем не менее, в том же GNU Octave свёртка с помощью FFT реализована хорошо, и на реальном музыкальном сигнале даёт ошибку порядка 10^-17..10^-16 по сравнению со свёрткой «в лоб». Это значительно ниже шумов квантования, но считается примерно на порядок быстрее.
Вывод — как я и написал ранее, *правильная* реализация свёртки на FFT не хуже реализации свёртки в лоб.
Добавил об этом абзац в исходный пост.

В ADAU*, возможно не используется FFT из-за ограничения по ОЗУ. При реализации в ПЛИС, насколько я знаю, по этой же причине часто используют «прямую» свёртку.
В железе решение в лоб — для маленьких задержек. Живые музыканты при задержках 2мс уже бьют тревогу, а 5мс — это провал.
Памяти в ADAU — несколько видов, в старших чипах есть FFT и FFT акселераторы.

FFT и аналоги используются для полифонии, ради которой можно потерпеть разумные задержки.

А каким методом посчитали ошибку в Stereo Convolver в сравнении с Octave?
Согласен, для живой работы свёртка в лоб позволяет получить минимальную задержку ценой более сложных вычислений. Впрочем, я думаю, если потребуется, можно и на FFT получить в пределах 1мс «лишней» (то есть сверх того, что даёт сам импульс) задержки, выиграв в несколько раз по вычислительной сложности (возможно, Refridgerator назовёт конкретные алгоритмы). Но это уже задача оптимизации конкретного аппаратно-программного решения — решать её в общем виде не особо интересно.

Ошибку в Octave посчитал очень просто.
Вычислил свёртку одного и того же музыкального фрагмента (44кГц, 16бит — кажется, под руку попалось что-то из Led Zeppelin) с одним и тем же импульсом (полученным как описано в посте), вычел один результат из другого и посмотрел минимум, максимум, RMS. Максимум получился на несколько порядков ниже шума квантования, так что детальнее разбираться не стал.

Для Stereo Convolver попробовал также — увидел в разностном сигнале нечто, явно коррелированное с сигналом на уровне порядка единиц процентов (от максимума сигнала до вычитания). Стал играться с выравниванием уровня, то есть добавлением постоянного множителя — без явных улучшений.
Было подозрение, что Stereo Convolver делал что-то с постоянной составляющей сигнала — тоже попробовал скорректировать без особого успеха.
Попробовал слушать полученный разностный сигнал — там явно что-то менее очевидное, чем эти две вещи. Дальше пока не исследовал. Склоняюсь к тому, что надо просто сесть и переписать.
думаю, если потребуется, можно и на FFT получить в пределах 1мс «лишней» (то есть сверх того, что даёт сам импульс) задержки, выиграв в несколько раз по вычислительной сложности
Можно, для этого используются гибридные алгоритмы, используя свойство дистрибутивности. Для этого импульс делится на несколько частей, самая первая считается через прямую свёртку, чтобы не было задержки, остальные — через БПФ, результаты складываюся.
"В наушниках часто возникает ощущение, что источник звука находится где-то внутри головы."

Это признак очень плохо тракта. Буквально уровень наушников "купить за $5 в переходе метро" и например встроенный звук в материнскую плату пк, который сделан максимально экономно, лишь бы был.


Уже с более-менее среднего уровня сцена становится читаемой, а на приличной аппаратуре и наушниках можно легко понять, где какой инструмент играет, как он расположен в пространстве.


Из записей когда гитары в один канал и вокал в другой я помню только ранние Битлз, тогда я так понимаю стерео ещё не успели толком использовать. Пинк Флоид 70-тых уже звучит отлично. Можно ещё привести записи эпохи войны громкости, но так они везде будут звучать как говно. Там сцены вообще нет.


Что у вас за наушники и какой источник?

Хабр такой Хабр.

Намного интереснее, если кто-то не согласен с мнением — написать, с чем именно не согласен, почему и как.
Сейчас слушаю ЦАП на AK4490 с достаточно сильноточным выходом (не хочу писать здесь марку, но это не Китай/Алиэкспресс), наушники — Fostex T50RP mk3.
Также всё это прверялось с доп. усилителем (композит с AD815 на выходе) и AKG k-501.
Ясно, аппаратура как бы совсем не слабая. У меня наушники AKG K612 (501 вроде же их дальний предшественник), которые как бы одни из лучших по сцене, по крайней мере за вменяемые деньги и карточка Asus STX II, и я нормально воспринимаю сцену. Возможно это привычка из-за длительного прослушивания музыки в наушниках, но по сравнению с «трешевыми» вариантами, где музыка действительно играет внутри головы, а стерео воспринимается как «играет левый динамик» и «играет правый динамик» мне сцена кажется по крайней мере читаемой.
Да, думаю, это вопрос привычки.
Когда речь идёт о звуковом восприятии, привычка вообще играет ключевую роль.
Интересная работа, но зачем же изобретать велосипед?

Есть очень годный плагин для foobar2000:
Bauer stereophonic-to-binaural DSP (http://bs2b.sourceforge.net).

ИМХО на голову выше, чем Dolby Headphones.
Пробовал, у меня сложилось противоположное мнение. Повторюсь, возможно, это связано с моей анатомией.
В том то и дело, что тут очень многое зависит от того, насколько голова пользователя близка к той «референсной» под которую затачивалась та или иная технология. К примеру для меня самый достоверный результат с точки зрения локализации источников звука выдаёт DTS Headphone:X, но я читал отзывы людей, которым она совсем не подходит, а больше всего нравится Dolby Headphones или Dolby Atmos for headphones. Именно поэтому по-настоящему универсальной может быть только технология, учитывающая анатомические особенности конкретного слушателя. Например DTS еще на релизе Headphone:x обещала, что добавит возможность такой настройки, однако прошло уже несколько лет, а заветной вкладки в плагине так и не появилось, есть только компенсация АЧХ популярный наушников, видимо что-то пошло не так. Также Марк Церни из Sony на технической презентации PS5 говорил, что они работают над технологией персонализации их Tempest Engine, в частности предполагал, что они либо будут обрабатывать фото головы и ушей пользователя, либо сделают интерактивную мини игру для настройки параметров фильтра, однако пока в PS5 есть только несколько (3?) зашитых профилей и никакой кастомизации. Из известных мне решений есть только упоминаемая уже где-то здесь в комментариях Creative Super X-FI, у которой смешанные отзывы на зарубежных форумах, да Smyth Realizer за 4 тысячи евро. Так или иначе очень радует, что к теме опять появился интерес у крупных кампаний, может быть в ближайшем будущем всё-таки увидим хорошее и доступное решение для массового потребителя.

В приложении headphones от Sony есть возможность загружать фото ушей для чего-то такого. Не пробовал, так как прослушивание музыки с этой технологией возможно через какое-то ограниченное количество приложений.

Тема очень интересная.
Действительно, ушная раковина немного изменяет звук, приходящий с разных направлений и так мозг понимает откуда пришел звук. В некоторых записях я слышал интересные эффекты, построенные на этом принципе. Это когда играет стерео в колонках, но кажется что звук идет сзади. При этом сзади никаких колонок нет!
Но с реализацией этого всего есть куча проблем.
У всех уши разные и мозг «приучен» к своим ушам. Так что универсальности не будет.
А сйчас этим вобще никто заморачиваться не будет т.к музыкальная индустрия деградирует и качественный звук мало кому нужен.
Действительно, ушная раковина немного изменяет звук, приходящий с разных направлений и так мозг понимает откуда пришел звук. В некоторых записях я слышал интересные эффекты, построенные на этом принципе. Это когда играет стерео в колонках, но кажется что звук идет сзади. При этом сзади никаких колонок нет!


Гуглить «barber shop 3d sound»
Великолепный пример объемного звука, умещенного в обычные стереонаушники. Слушать в наушника.

Причем это файл был создан еще в древние времена, когда техника была куда как менее совершенной.
В древние времена люди очень серъезно занимались качественным звуком.
Было квадро и много эксперементов интересных.
Сейчас это вобще никому не интересно. Все сидят в соцсетях и слушают с стрим телепончиков.

Просто преобразовать звук с помощью фильтров для своих ушей не получится. Т.к это надо сводить запись сразу с применением этих фильтров для разных источников звука с разных направлений. Этим точно никто заниматься не будет.
Так что тема интересна для своих эксперементов не более.
Еще как занимаются, гасеров — тысячи, десятки тысяч. И каста модулярщиков и много кого еще. И VST плагинов делается миллион, конкуренция — жуткая, даже бесплатно влезть.
Софт делают.
А музыку кто писать будет качественную?
Динозавры еще пишутся качественно. Издают SACD, винил и концерты с многоканальными дорожками на блю рей. Они уйдут на пенсию и что будет дальше?
Где материал брать нормальный для прослушивания?
Угу, придумано всё было очень давно. См., например, en.wikipedia.org/wiki/Ambisonics
Но это дорого, и мало кому нужно.

"Это когда играет стерео в колонках, но кажется что звук идет сзади."
Это называется бинауральное стерео.
Некоторое время назад искал плагины для плееров, чтобы звук 5.1 / 7.1 в бинауральное стерео конвертировать для просмотра фильмов. Но ничего нормально работающего не нашел.

Ещё лет 20 назад была демка от компании A3D (они тогда пилили эту технологию для компьютерных игр). Там можно было менять характеристики своей головы (было доступно несколько слайдеров — типа размер головы и т. п.), и можно было двигать виртуальный источник звука вокруг виртуального себя в произвольную точку. Получалось весьма неплохо!

Creative Super X-FI позволяет воссоздать характеристики высококачественной профессиональной мульти-акустической системы и обеспечивает невероятную симфонию звука в ваших наушниках, используя сложные алгоритмы и объемные вычисления для индивидуальной настройки звучания с помощью составления карты головы и ушей.

Что вы думаете по поводу «Wave NX»? Этот плеер учитывает размер головы и расстояние между ушами — а также может следить за положением головы в пространстве с помощью стороннего трекера. (По ссылке есть бесплатные версии для андроида и айфона.)

У меня на телефоне она немного глючит: каждый раз при запуске нужно открывать настройки — хоть они и не сбрасываются, но плеер их сразу читать не хочет, работает с дефолтными. Размер комнаты — ноль — тогда нету эха.
Всё попробовать — жизни не хватит :)
Поставил в очередь.
Я пробовал на ПК, для моей головы и ушей результат был на уровне с другими хорошими технологиями. При этом я подключал веб камеру для трекинга — получалась небольшая задержка, но даже так трекинг очень сильно добавлял реализма. Для меня технология очень хорошо работала для боковых и тыловых каналов, но центральный и фронтальные традиционно «прилипали» к голове немного сверху, соответственно когда виртуальный источник звука перемещался из-за спины вперед, вся иллюзия моментально рушилась. Кастомизация размера головы, к сожалению, не дала никакой прибавки в реализме, так как моя голова оказалась именно того размера, который там был выставлен по умолчанию. В итоге отказался от покупки их трекера именно из-за плохой виртуализации фронтальных колонок, которые отвечают, наверное, за 90% звуковой картины будь то фильм, игра или музыка.
Всем интересующимся реальным применением данной технологии советую обратить внимание на проект impulcifer С помощью данной программы можно в домашних условиях записать поканальные данные для совственных ушей и использовать их в hesuvi. Я сам в прошлом году заморочился: купил недорогой аудиоинтерфейс для пк, пару микрофонных модулей Primo 258N, спаял микрофонный усилитель к ним и произвел тестовые замеры. Результат получился ошеломительным, никакие Dolby Atmos for Headphones и DTS Headphone:X рядом не стояли. Более того, не поворачивая головы невозможно определить, идет ли звук через наушники или играют колонки, иногда я надевал наушники, садился играть или смотреть фильм и специально снимал их на секунду, чтобы убедиться, что у меня не включены колонки и я не разбужу соседей.
У данной технологии есть несколько недостатков по сравнению с небезызвестным Smyth Realizer:
  1. Работает только на ПК
  2. Максимум 7.1, то есть никакого atmos в ней не услышать
  3. Невозможно отслеживание положения головы, так как используется поканальная запись для фиксированного положения колонок

В общем всем советую, микрофоны стоят копейки, звуковую карту можно у кого-нибудь одолжить, разве что пред собрать может быть проблема, но можно купить\одолжить готовое решение для конденсаторных микрофонов.
Тоже интересно. Но не совсем то, что я хочу. У меня нет «контрольной комнаты», в которой всё звучит заведомо круто, и нет колонок такого уровня. Мне интереснее симулировать в наушниках «идеальную контрольную комнату». Понятно, что утопия, но тем не менее.

PS: Прошу прощения, проморгал когда пост извлекли из песочницы, а тут уже столько обсуждений! :)
В этом проекте есть не только модуль подготовки фильтров для эмуляции многоканальной системы в наушниках, но и модуль коррекции виртуального помещения. Я сам эту часть не изучал и не использовал, но знаю, что для неё требуется откалиброванный измерительный микрофон. А вообще можно взять ноутбук, бинауральные микрофоны и сходить записать чью-нибудь чужую систему или, например, демо рум в фирме, торгующей HiFi оборудованием, а потом спокойно использовать её дома.
Коррекция помещения — отдельная очень обширная тема. И интересная — собственно из неё я в своё время и узнал о DRC. Имеется даже весьма неплохой измерительный конденсаторный микрофон от RFT. Но с момента рождения ребёнка слушать через колонки практически не приходилось. Да что там… колонки года 2 простояли где-то на антресолях, а потом были извлечены исключительно ради прослушивания сказок.

С бинауральными микрофонами мысль хорошая, оказывается, уже есть вполне доступные для хобби варианты.
Тут смысл не в том, чтобы компенсировать аккустику помещения при прослушивании через колонки, а в том, чтобы скорректировать проведенные измерения с учетом особенностей помещения и всего звукового тракта.

Условно измерения можно разбить на 3 этапа:
  1. Запись тестового сигнала от каждой колонки для каждого уха внутриушными микрофонами
  2. Запись тестового сигнала через наушники внутриушными микрофонами
  3. Запись тестового сигнала от каждой колонки откалиброванным измерительным микрофоном в точке прослушивания

Если применить свертку (в терминологии не уверен, потому что математическую часть не знаю) сигналов из п.1 и п.2, то получим отклик, который внутри себя содержит информацию об всем воспроизводящем тракте, включая саму колонку, о комнате, ну и об ухе пользователя. Соответственно при прослушивании будет полная иллюзия того, что мы слушаем конкретные колонки в конкретной комнате. При этом АЧХ самих внутриушных микрофонов значения не имеет, так как её влияние «самоуничтожается» за счет того, что оба измерения мы производили ими.
Но, если в вычисления добавить запись из п.3, то можно избавиться от влияния комнаты и оборудования воспроизведения, и оставить только отклик уха слушателя. То есть при прослушивании аудиоматериала через наушники будет имитироваться именно «безэховая» камера и «идеальный» громкоговоритель. Вот к такому сигналу уже можно применить импульсы записанных «правильных» помещений и наслаждаться прослушиванием.
Конечно прямо идеального результата такими домашними измерениями добиться не получится, всё равно набежит какая-то погрешность на каждом измерении, но отзывы от тех, кто этим заморачивался очень положительные.
Увы, всё не так просто.
Полностью компенсировать отклик комнаты — практически невозможно, там есть как математические ограничения, так и физические.
Например, не любое преобразование вообще можно инвертировать.
Другой пример: в точке прослушивания может быть очень сильный провал на АЧХ за счёт влияния помещения, и если пытаться его полностью компенсировать, начнуться проблемы с переполнением разрядной сетки, увеличением погрешностней, размахом результирующего сигнала и т. п.
Собственно, всё это и определяет сложность систем типа DRC.
Вы правы. Я согласен, что не получится записать дешевые колонки в неподготовленном помещении и получить хороший результат, а также очевидно, что дребезжащие в шкафу бокалы никакой фильтр не исправит (утрирую).
Преимущество вертуализации в том, что можно один раз заморочиться при замерах: убрать из комнаты всё лишнее, умеренно заглушить, найти удачную точку для записи и удачное расположение для колонки (нужна только одна, остальные записываются методом поворота слушателя вокруг своей оси), и в итоге получить хорошие отклики, которыми можно с комфортом пользоваться всю оставшуюся жизнь в наушниках.
Кроме того корректировки в «виртуальной» комнате делаются проще, чем в реальной. Например для того, чтобы скомпенсировать провал АЧХ в реальном помещении при прослушивании на колонках, нужно поднять соответствующие частоты в источнике, что может привести к указанным вами негативным последствиям, я же описывал пример, когда мы убираем этот провал не с помощью предварительного усиления определенных частот, а с помощью вырезания этого провала из замера колонки бинауральным микрофоном. То есть в итоговом отклике этого провала не должно быть в принципе.
Я не спорю, можно.
Просто АФАИК, проблема как раз в том, что если есть отражения, то полностью их инвертировать не получится, а в комнате они есть всегда.
То есть полностью заменить измерения в безэховой камере математической обработкой — нельзя. Насколько можно приблизится, и в каких случаях этого достаточно — вопрос дискуссионный.

Что можно попробовать — это снять отклик в большом зале, чтобы до прихода первых отражений от стен и потолка у нас уже было достаточно информации. Вот только с полом так просто не получится…
Этот метод часто используют разработчики акустических систем (особенно DIY) для оценки АЧХ. Но если это коммерческая разработка, то хотя бы в конце обычно снимают АЧХ «правильно», то есть в безэховой камере за деньги.
Насколько понимаю, запись отклика на короткий импульс имеет только одно преимущество — скорость проведения измерений. Во всем остальном этот метод проигрывает измерению по тональному сигналу от ГКЧ. Если вы захотите сделать свой личный профиль, а не подобрать похожий по ощущениям от прослушивания сэмплов (это самый слабый момент в вашей истории с точки зрения объективности измерений), то с продолжительным временем измерений можно и смириться. Кроме того, не нужно тягать монитор на сервоприводе — достаточно менять только расстояние и измерять или изменять положение головы. Отражения от стен можно учесть например по сигналу с дополнительных внеушных микрофонов. Итого — сравнительно простое оборудование, разумная подготовка помещения и немного терпения. И уж точно измерять амплитуду и фазу достаточно продолжительного синусоидального сигнала мы умеем как мало что другое. Скорее размер внутриушных микрофонов будет вносить погрешность в измерения на самых высоких частотах, изменяя резонансную частоту ушного канала. Хорошо что реально выше 10кГц мы разбираем детали очень плохо.

Но вижу и один неучтенный эффект при измерении внутриушными микрофонами. Дело в том, что мы слышим не только колебания давления воздуха, но и приходящие через кости и плоть на косточку, стремя, улитку механические колебания. А вот как это измерить представить себе не могу. Поэтому видимо разница между мониторами и наушниками будет оставаться всегда. Вся надежда на то, что это слабый эффект. Вы много прочли по теме. Не встречали оценку его величины?

Ну и конечно остается вопрос о самом аудиоматериале. На мой взгляд, мы просто вынуждены формулировать задачу как «услышать то, что было задумано звукорежем» т. к. ничего большего нам не светит и проверить что добились цели невозможно. Настоящий аудиоматериал появится только когда технология с объективным контролем доставки заданного звукового давления до каждого уха с коррекцией индивидуальных особенностей станет доступной. Это была бы очередная революция в аудио и наверное самая удивительная после патефона. Вот тогда и появятся настоящие произведения искусства, заточенные сначала под реализм, а потом и под всякие извращения, как это уже можно было наблюдать в живописи. Хорошая тема! Спасибо, автор!
Я как раз так и записывал профиль своих ушей: брал 2 колонки а сам крутился на офисном кресле в точке прослушивания. Могу сказать, что я не слышу разницу между колонками и наушниками с примененным фильтром вообще. Точнее слышу на частотах ниже 100Гц, но это уже ограничения самих наушников. Однако замечу, что я вообще не слышу частот выше 16кГц, а также не могу в слепом тесте отличить mp3 320kbps от CD, так что возможно более «ушастые» люди будут эту разницу замечать. Чего реально не хватает, дак это трекинга положений головы: пока сидишь неподвижно, иллюзия 100%, как только начинаешь вертеть головой, мозг сразу сигнализирует, что что-то не так.
1. Про импульсный отклик.
На самом деле, обычно его измеряют не прямым способом (подачей короткого импульса на колонку и записью результата с микрофона), а как раз с помощью свип-тона (почти то же, что ГКЧ). Просто от записанного свип-тона переходят к импульсной характеристике, т. к. с ней удобно работать, и она полностью описывает АФЧХ, отражения и пр. Кроме того, по сравнению с прямым измерением импульсного отклика, значительно улучшается соотношение сигнал/шум.

2. Про косточки.
ИМХО, то, что происходит с сигналом начиная со слухового канала в данном случае не имеет значения, т. к. там эффекты будут одинаковы при прослушивании через колонки и наушники.
Другое дело, что самые правильные с этой точки зрения — внутриканальные наушники-«затычки». А с большими наушниками всё становится менее строго…

3. Про революцию
Слабо в это верю, т. к. нет спроса. В качестве иллюстрации: ТТХ аппаратуры (особенно массовой) за последние 20 лет значительно улучшились, а качество фонограмм — нет…
Подскажите где можно посмотреть работу звукорежиссёра, сводящего разные дорожки и работающим над панорамой с мониторными динамиками. Потому-что все ролики, что я видел, обычно с «лопухами».
Касаемо классики. Как я понимаю часть работы дирижёра как раз заключается в регулировании громкости отдельных инструментов в оркестре. Интересно что будет, если поставить стереомикрофон рядом с ним, чтобы послушать, так сказать, оригинал. Или он всё-же «крутит уровни» отдельных музыкантов с учётом того, как музыка будет звучать в зале?
Насчёт дирижёров — не знаю.
А что Вы подразумеваете под «мониторными динамиками» и под «лопухами»?
Размер НЧ-головки? В контрольных мониторах она вполне может быть 15", тем не менее, это вроде как «мониторный динамик».
Мониторы большого размера — стоят дороже и требуют бОльшего помещения для нормальной работы. И в целом они лучше, т. к. позволяют получить достоверный звук на более низких частотах. Полагаю, по этой причине «для ролика» чаще выбирают более качественные, то есть более крупные и более дорогие мониторы.
Извините, под динамиками имелись в виду мониторные колонки. написал так потому-что вроде есть и мониторные наушники (лопухи).
Ролики — ролики на ютубе, когда звукорежиссёр работает в наушниках. Колонки не видел. Вот и хотел увидеть описываемую вами работу звукорежиссёра, просто интересно.
Увы, роликов не накидаю. То есть, поискать, конечно, могу, но мне это не интересно. Полагаю, тут нужно искать ролики, где звукореж занимается именно сведением микса, а не записью инструментов и не озвучкой живого выступления.
Посмотрите dSONIQ Realphones, эта программа решает примерну ту же задачу
fft_div = fft(impulse_opposite) ./ fft(impulse_direct);
impulse_tf = real(ifft(fft_div));

По-умному это называется deconvolution

Нет, этот код не является деконволюцией. Используя умножение в частотном домене, полученным через FFT — вы делаете не свёртку, а циклическую свёртку. Небольшим ухищрением из неё можно получить линейную свёртку — а вот обратить уже нет, даже если в исходной свёртке нет умножения частот на 0, и даже не только из-за возрастания шумов на низких амплитудах. А потому что из обращения свёртки с импульсом с затухающей со временем амплитудой мы чаще получим импульс, у которого амплитуда импульса возрастает со временем (как коэффициенты в расходящихся рядах). В этом вся проблема, и на текущей момент у неё нет однозначного решения. Именно поэтому вам пришлось использовать МНК и умножение на оконную функцию — вы получили лишь один из вариантов приближённого решения.

Ну и спектров рассматриваемых импульсов статье очень сильно не хватает.
Построил спектры файла IRC_1006_R_R0195_T030_P000.wav, для левого и правого каналов:

Здесь хорошо видно, что:

1) они довольно шумные, особенно в области высоких частот,
2) имеют довольно сильный перепад по амплитуде — 30 дБ! Более вероятно, что именно в этом причина значительного изменение тонального баланса в наушниках, а не их кривая АЧХ by design.

Поскольку исходная АЧХ неизвестна, то имеет значение не абсолютное значение амплитуд (и фаз, которых на этом графике нет), а их разница между левым и правым каналом. Поэтому лично мне кажется правильным использовать их не в сыром виде (или с деконволюцией) — а сгенерировать разностный и сглаженный в частотном домене импульс и использовать его только в одном канале.
Не известна исходная АЧХ чего?
Насчёт применения импулься только в одном канале — я собственно так и предлагаю. А насчёт того, что этот импульс наужно генерить разностным способом — довольно спорно. Мне кажется, деконволюция здесь более уместна.
Похоже, я просто невнимательно прочитал статью) Изначально я так понял, что вы корректируете АЧХ наушников, изложение мат.части у вас довольно сумбурное получилось (ну или мне так показалось). Разность, естественно, спектров — фаз и логарифмов амплитуд.
Sennheizer

sennheiser :) В немецком s читается как з, z как ц, зенхайзер
Спасибо, поправлю.
Отложилось в памяти, что у нас обычно коверкают произношение этой марки, но Вы правы, коверкают таки первую букву :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории