m1rko Feb 20 2019 at 20:54

Audio AI: выделяем вокал из музыки с помощью свёрточных нейросетей

12 min

64K

SoundMachine learning * Image processing *

Translation

+67

Comments 27

rsashka Feb 20 2019 at 21:28

Класс! Спасибо за перевод статьи!
Жаль, что можно добавить только один плюсик.

GiperBober Feb 21 2019 at 05:58

Технология бы очень помогла в сфере всевозможных автоматических субтитров. Уже сейчас нейросети вполне корректно переводят слова в субтитры, но беспомощны, когда фоном налагается шум или музыка.
Для глухих людей было бы просто отличным появление этих технологий на обычных компьютерах и офф-лайн устройствах. Чтобы смартфон или даже гугл-очки могли сразу переводить в субтитры, что говорят люди, игнорируя шум или музыку, и в фильмах и программах всё переводилось в субтитры автоматически, без необходимости их искать отдельно или ждать версий с субтитрами.
Учитывая, что и нейросети-переводчики уже неплохо поднатаскались, то эта фишка позволила бы смотреть и любые непереведённые фильмы и передачи сразу с русскими субтитрами.
А прям вообще круть — это гугл-очки дополненной реальности, которые бы подписывали все источники звука вместе с их расположением в пространстве. С настраиваемыми приоретами, вроде «разговоры людей — высший приоритет, отображать всегда, бытовой шум — показывать новые шумы, старые шумы — оповещать о начале шума, скрывать в случае нормального шума, оповещать о ненормальной работе устройств (шум отличается от типового для данного устройства), выделять обращения по имени»

xRay Feb 21 2019 at 07:06

Огрехи есть, но результат конечно же впечатляет

defecator Feb 21 2019 at 07:13

Такое бы прикрутить для удаления рекламных роликов при просмотре кинцов на телеке ))))

redpax Feb 21 2019 at 07:41

Наоборот сеть работает? То есть наиболее востребования функция удаления голоса из музыки возможна?

vassabi Feb 21 2019 at 07:55

вы точно статью прочитали? Конечно же работает — там же битовая маска.

SADKO Feb 21 2019 at 14:06

Да-да-да, достаточно широкая и бурлящая, почему нам собственно и демонстрируется выделенный голос, а не фонограмма, ибо вместо музыки там будет трэшь угар и содомия…
Если банальная фонограмма-удавка (частотно зависимое вычитание стереоканалов) характерна простым дисбалансом микса, то в таком чуде, дисбаланс будет динамическим!!!

FForth Feb 21 2019 at 08:07

Интересно, а насколько данная технология работает на звуковых дорожках фильмов?

dMac Feb 21 2019 at 08:21

Битлз выбрали, конечно же, как самый лучший пример работы?
Там в миксе центральный канал, если вокала не считать — пустой, а инструменты раскиданы по бокам, для нейронки это за счастье, наверное. Такой микс прилично делится и без нейронок, просто за счет панорамы (можно в Audition, например, попробовать).

Остальные примеры на порядок сложнее, но, что удивительно — качество результата падает гораздо меньше, чем я ожидал. Хотя до практически применимого качества еще работать и работать, направление, кажется, перспективное.

И еще я придумал, как потроллить эту нейронку. Надо рядом с вокалом положить в микс электрогитару, пропущенную через вокодер. На модулирующий вход вокодера подать вторую партию вокала, и посмотреть, как будет мучиться сеть, решая, гитара это, или все-таки вокал /smile/

marshinov Feb 21 2019 at 09:31

Надо рядом с вокалом положить в микс электрогитару, пропущенную через вокодер.

Мусьё знает толк :))

Spaceoddity Feb 21 2019 at 14:59

Не, там всё как раз ещё проще. Там весь вокал в правом канале (со струнными), а остальные инструменты в левом. Если просто взять правый канал, то получится примерно это:
soundcloud.com/user-823965336/we-can-work-it-out
А если ещё параметрическими фильтрами поиграться, чтобы струнные приглушить…

dMac Feb 21 2019 at 16:57

Возможно я стал стар и глуховат…
Но кажется, вокал все-таки в центре, вместе с басом и бочкой.
Остальная установка слева (по крайней мере, рабочий барабан и тарелки), ритм гитара слева, клавишные справа.
Второй вокал таки да немного заносит вправо, но скорее это из-за накрученного на него ревера, не?

Тогдашние микшеры по определению не могли делать любую панораму, только на 9, 12 и 3 часа — там переключатели были

Spaceoddity Feb 21 2019 at 19:57

Объясняю. Микс:
soundcloud.com/user-823965336/mix
5 секунд оригинала, 5 секунд оба канала из правого, 5 секунд оба канала из левого.

А теперь самое интересное. Всё дело в источнике. Я для сэмпла взял «Past Masters Disc 2 (2009 Stereo Remaster)». Но у меня есть и «CD11 — We Can Work It Out (Mono) 1965». С которым, по вполне понятным причинам бессмысленно делать такие манипуляции. Посыл понятен? Изначально We Can Work It Out была выпущена (в Британии) в моно-формате (как и все синглы Битлз вообще, и как четыре первых альбом до «Хелпа»). Это потом уже была куча всяких стерео-ремастеров, пересведений и т.п. Так что тут всё зависит от конкретного ремастерного издания из которого берётся источник ;)

P.S. И в чём была проблема установить любую панораму? Это же даже не эквалайзер. Просто берём сигнал и элементарным переменным резистором регулируем уровень этого сигнала для одного канала и для другого.

dMac Feb 22 2019 at 15:06

По панораме — если мы говорим о более позднем ремастере, проблем нет. Если об оригинальной записи родом из шестидесятых — тогда прошу ознакомиться с раздельчиком «Stereo-switching» вот тут:
https://en.wikipedia.org/wiki/Panning_(audio)

antonsosnitzkij Feb 21 2019 at 09:45

Насколько мне известно решенная задача называется «слепое разделение сигнала», поправьте, пожалуйста, если ошибаюсь
Является ли использование нейронных сетей оптимальным решением данной задачи?

UFO landed and left these words here

Belarus Feb 21 2019 at 10:40

Не понял, почему нельзя записать голос, слить его со звуком-шумом и учить нейросеть выделять голос сравнивая с эталонной записью. Кто может объяснить?

Bukvva Feb 21 2019 at 10:59

Цель была — выделять голос именно из песен.
Пение и говорение несколько отличаются. И, видимо, натренировать сеть на говорении не достаточно для пения. А для записи пения надо иметь под рукой очень большое количество певцов.

pda0 Feb 21 2019 at 13:02

Интересно было бы обратную задачу увидеть. Т.е. по музыке и голосу научить предсказывать к музыке голос. Чтобы можно было подать в нейросеть музыку и услышать пение. Дичь конечно будет страшная, на осмысленность можно даже близко не рассчитывать, но звучать может забавно. :)

vvzvlad Feb 21 2019 at 18:27

Наоборот тоже можно — бубнишь что-нибудь в микрофон, а тебе музыку накладывают. Как караоке, но даже в слова попадать не надо.

CyberAP Feb 21 2019 at 13:29

Очень интересно было бы почитать как ребята из iZotope решили подобную задачу в RX 7, если это конечно не коммерческая тайна.

SADKO Feb 21 2019 at 14:30

Вот, очень хорошо, что их помянули, на этом празднике тупого «нейроинженеринга», без каких-либо попыток вникнуть в суть происходящего…
Как c шумами работает RXысина вообще, да собственно так-же как и DART и CoolEdit который ныне audition. Раскладываем сигнал в спектр (правильным образом), и в каждой полосе осуществляем динамическую обработку и собираем обратно. Ничего сложного, дьявол в деталях реализации, временных постоянных\переменных, логике, компенсации лага… Профиль сигнала можно снять в абсолютных или относительных значениях, можно отслеживать сдвиги спектра, что было актуально для работы с аналоговыми носителями… В общем тема эта давняя и полезная не только в деле подавления стационарных шумов… И нейросети бы тут пригодились, если применять их умеючи, а не в лоб.

CyberAP Feb 21 2019 at 14:39

А при чём тут шумы? RX 7 умеет разделять сигнал по семантике. Отдельно ударные, вокал, бас и прочие инструменты. Собственно, очень интересно как они это делают, если память не изменяет они говорили что это построено на машинном обучении.
www.izotope.com/en/products/repair-and-edit/rx/features-and-comparison/music-rebalance.html.html

SADKO Feb 21 2019 at 15:39

а при том, что принцип тот-же, разница лишь в том, что вместо тупого гейта про профилю сигнала\шума, хотя уже и он может подавлять\выделять не только шумы но и сигналы, не суть
… используется более хитрая передаточная характеристика, с более хитрым детектором, возможно и сигнатурным, но скорее всего просто это та-же пространственная удавка, только вместо тупого эквалайзера хитрый шумо\сигнало дав ;-)

и вообще, ребаланс сведёнки, люди делали когда изотоп ещё плагином для винампа не был

Refridgerator Feb 21 2019 at 15:12

Поскольку наши входные данные настоящие, можно работать с половиной STFT (объяснение выходит за рамки этой статьи...), сохраняя компонент DC (необязательное требование), что даёт нам 513 частотных бункеров.

Предполагаю, что имелось в виду следующее:

Поскольку мы работаем с действительными, а не комплексными данными, то можно работать с половиной STFT, что даст нам 513 частотных полос (включая необязательную постоянную составляющую).

stalinets Feb 21 2019 at 17:02

В случае, если слабый голос заглушен громкой музыкой, и ты знаешь этот трек, неплохо бы иметь возможность для облегчения работы нейросети загрузить ей этот трек в чистом виде, чтобы она просто вычла его из входящего файла.

arpeggio Feb 25 2019 at 20:30

Крутяк. Пиксели частоты она нашла, теперь надо как-то научить правильно громкость для всего спектра находить. Сейчас получается так, что если на одной частоте поёт вокал и одновременно играет, допустим, какой-нибудь синт, то частота будет по громкости как сумма 2х инструментов, из-за этого и слышны артефакты, как я думаю. Если правильно расставить громкости в спектре полученного сигнала, то будет ещё намного круче звучать.