Pull to refresh

Comments 27

Класс! Спасибо за перевод статьи!
Жаль, что можно добавить только один плюсик.
Технология бы очень помогла в сфере всевозможных автоматических субтитров. Уже сейчас нейросети вполне корректно переводят слова в субтитры, но беспомощны, когда фоном налагается шум или музыка.
Для глухих людей было бы просто отличным появление этих технологий на обычных компьютерах и офф-лайн устройствах. Чтобы смартфон или даже гугл-очки могли сразу переводить в субтитры, что говорят люди, игнорируя шум или музыку, и в фильмах и программах всё переводилось в субтитры автоматически, без необходимости их искать отдельно или ждать версий с субтитрами.
Учитывая, что и нейросети-переводчики уже неплохо поднатаскались, то эта фишка позволила бы смотреть и любые непереведённые фильмы и передачи сразу с русскими субтитрами.
А прям вообще круть — это гугл-очки дополненной реальности, которые бы подписывали все источники звука вместе с их расположением в пространстве. С настраиваемыми приоретами, вроде «разговоры людей — высший приоритет, отображать всегда, бытовой шум — показывать новые шумы, старые шумы — оповещать о начале шума, скрывать в случае нормального шума, оповещать о ненормальной работе устройств (шум отличается от типового для данного устройства), выделять обращения по имени»
Огрехи есть, но результат конечно же впечатляет
Такое бы прикрутить для удаления рекламных роликов при просмотре кинцов на телеке ))))

Наоборот сеть работает? То есть наиболее востребования функция удаления голоса из музыки возможна?

вы точно статью прочитали? Конечно же работает — там же битовая маска.
Да-да-да, достаточно широкая и бурлящая, почему нам собственно и демонстрируется выделенный голос, а не фонограмма, ибо вместо музыки там будет трэшь угар и содомия…
Если банальная фонограмма-удавка (частотно зависимое вычитание стереоканалов) характерна простым дисбалансом микса, то в таком чуде, дисбаланс будет динамическим!!!
Интересно, а насколько данная технология работает на звуковых дорожках фильмов?
Битлз выбрали, конечно же, как самый лучший пример работы?
Там в миксе центральный канал, если вокала не считать — пустой, а инструменты раскиданы по бокам, для нейронки это за счастье, наверное. Такой микс прилично делится и без нейронок, просто за счет панорамы (можно в Audition, например, попробовать).

Остальные примеры на порядок сложнее, но, что удивительно — качество результата падает гораздо меньше, чем я ожидал. Хотя до практически применимого качества еще работать и работать, направление, кажется, перспективное.

И еще я придумал, как потроллить эту нейронку. Надо рядом с вокалом положить в микс электрогитару, пропущенную через вокодер. На модулирующий вход вокодера подать вторую партию вокала, и посмотреть, как будет мучиться сеть, решая, гитара это, или все-таки вокал /smile/
Надо рядом с вокалом положить в микс электрогитару, пропущенную через вокодер.

Мусьё знает толк :))
Не, там всё как раз ещё проще. Там весь вокал в правом канале (со струнными), а остальные инструменты в левом. Если просто взять правый канал, то получится примерно это:
soundcloud.com/user-823965336/we-can-work-it-out
А если ещё параметрическими фильтрами поиграться, чтобы струнные приглушить…
Возможно я стал стар и глуховат…
Но кажется, вокал все-таки в центре, вместе с басом и бочкой.
Остальная установка слева (по крайней мере, рабочий барабан и тарелки), ритм гитара слева, клавишные справа.
Второй вокал таки да немного заносит вправо, но скорее это из-за накрученного на него ревера, не?

Тогдашние микшеры по определению не могли делать любую панораму, только на 9, 12 и 3 часа — там переключатели были
Объясняю. Микс:
soundcloud.com/user-823965336/mix
5 секунд оригинала, 5 секунд оба канала из правого, 5 секунд оба канала из левого.

А теперь самое интересное. Всё дело в источнике. Я для сэмпла взял «Past Masters Disc 2 (2009 Stereo Remaster)». Но у меня есть и «CD11 — We Can Work It Out (Mono) 1965». С которым, по вполне понятным причинам бессмысленно делать такие манипуляции. Посыл понятен? Изначально We Can Work It Out была выпущена (в Британии) в моно-формате (как и все синглы Битлз вообще, и как четыре первых альбом до «Хелпа»). Это потом уже была куча всяких стерео-ремастеров, пересведений и т.п. Так что тут всё зависит от конкретного ремастерного издания из которого берётся источник ;)

P.S. И в чём была проблема установить любую панораму? Это же даже не эквалайзер. Просто берём сигнал и элементарным переменным резистором регулируем уровень этого сигнала для одного канала и для другого.
По панораме — если мы говорим о более позднем ремастере, проблем нет. Если об оригинальной записи родом из шестидесятых — тогда прошу ознакомиться с раздельчиком «Stereo-switching» вот тут:
https://en.wikipedia.org/wiki/Panning_(audio)
Насколько мне известно решенная задача называется «слепое разделение сигнала», поправьте, пожалуйста, если ошибаюсь
Является ли использование нейронных сетей оптимальным решением данной задачи?
UFO just landed and posted this here
Не понял, почему нельзя записать голос, слить его со звуком-шумом и учить нейросеть выделять голос сравнивая с эталонной записью. Кто может объяснить?
Цель была — выделять голос именно из песен.
Пение и говорение несколько отличаются. И, видимо, натренировать сеть на говорении не достаточно для пения. А для записи пения надо иметь под рукой очень большое количество певцов.
Интересно было бы обратную задачу увидеть. Т.е. по музыке и голосу научить предсказывать к музыке голос. Чтобы можно было подать в нейросеть музыку и услышать пение. Дичь конечно будет страшная, на осмысленность можно даже близко не рассчитывать, но звучать может забавно. :)
Наоборот тоже можно — бубнишь что-нибудь в микрофон, а тебе музыку накладывают. Как караоке, но даже в слова попадать не надо.
Очень интересно было бы почитать как ребята из iZotope решили подобную задачу в RX 7, если это конечно не коммерческая тайна.
Вот, очень хорошо, что их помянули, на этом празднике тупого «нейроинженеринга», без каких-либо попыток вникнуть в суть происходящего…
Как c шумами работает RXысина вообще, да собственно так-же как и DART и CoolEdit который ныне audition. Раскладываем сигнал в спектр (правильным образом), и в каждой полосе осуществляем динамическую обработку и собираем обратно. Ничего сложного, дьявол в деталях реализации, временных постоянных\переменных, логике, компенсации лага… Профиль сигнала можно снять в абсолютных или относительных значениях, можно отслеживать сдвиги спектра, что было актуально для работы с аналоговыми носителями… В общем тема эта давняя и полезная не только в деле подавления стационарных шумов… И нейросети бы тут пригодились, если применять их умеючи, а не в лоб.
А при чём тут шумы? RX 7 умеет разделять сигнал по семантике. Отдельно ударные, вокал, бас и прочие инструменты. Собственно, очень интересно как они это делают, если память не изменяет они говорили что это построено на машинном обучении.
www.izotope.com/en/products/repair-and-edit/rx/features-and-comparison/music-rebalance.html.html
а при том, что принцип тот-же, разница лишь в том, что вместо тупого гейта про профилю сигнала\шума, хотя уже и он может подавлять\выделять не только шумы но и сигналы, не суть
… используется более хитрая передаточная характеристика, с более хитрым детектором, возможно и сигнатурным, но скорее всего просто это та-же пространственная удавка, только вместо тупого эквалайзера хитрый шумо\сигнало дав ;-)

и вообще, ребаланс сведёнки, люди делали когда изотоп ещё плагином для винампа не был
Поскольку наши входные данные настоящие, можно работать с половиной STFT (объяснение выходит за рамки этой статьи...), сохраняя компонент DC (необязательное требование), что даёт нам 513 частотных бункеров.
Предполагаю, что имелось в виду следующее:

Поскольку мы работаем с действительными, а не комплексными данными, то можно работать с половиной STFT, что даст нам 513 частотных полос (включая необязательную постоянную составляющую).
В случае, если слабый голос заглушен громкой музыкой, и ты знаешь этот трек, неплохо бы иметь возможность для облегчения работы нейросети загрузить ей этот трек в чистом виде, чтобы она просто вычла его из входящего файла.
Крутяк. Пиксели частоты она нашла, теперь надо как-то научить правильно громкость для всего спектра находить. Сейчас получается так, что если на одной частоте поёт вокал и одновременно играет, допустим, какой-нибудь синт, то частота будет по громкости как сумма 2х инструментов, из-за этого и слышны артефакты, как я думаю. Если правильно расставить громкости в спектре полученного сигнала, то будет ещё намного круче звучать.
Sign up to leave a comment.

Articles