Как стать автором
Обновить

Комментарии 16

Очень интересно!
Хотелось бы побольше треков с результатами.
А чем из всего описанного можно воспользоваться простому смертному?

Можно ли эту нейросеть обучить убирать шумы магнитной ленты? Есть готовые решения, которые умеют убирать фоновые шумы, но с шумами магнитной записи результаты у них не очень хорошие.

OzonRX не? А также в Audition должен быть хороший фильтр с учётом некоторых особенностей ленты, ну если adobe его не сломали :-)

На лёгких шумах работает, что-то посложнее уже начинает речь делать неразборчивой. В этих задачах прогресс не очень большой, к сожелению. Можно, конечно, руками делать, но хотелось бы что-то более автоматизированного.

Ну, не знаю, в своё время на DART и CEP получал отличные, проф пригодные результаты и неплохо заработал на этом.

Причём речь не только о шумах ленты, но и о многих других видах стационарного шума, к которым подход применим.

Единственная причина, по которой мне пришлось пилить свой софт и железо, это осознание узких мест в работе с аналоговыми носителями, которые имели место быть даже в топовых мастерхаусах. И открывшаяся потенциальная возможность, им же втюхать свои решения, принципиально иные и достаточные чтобы потребностей в какой-либо иной цифровой обработке со всеми сопутствующими артефактами тех лет не возникало.

Сегодня проделана колоссальная работа над ошибками, а в продуктах вроде RXины учтена масса нюансов, о которых пользователь даже не подозревает. Стали доступны и сильно улучшились аудио интерфейсы. И это всё вносит существенный вклад, в результат который можно получить не вдаваясь в дебри, которые толком то нигде и не описаны.

Вообще я пробовал UVR, о котором рассказывается в сети. Некоторые модели лучше чем RX и Audition справлялись выделяя голос, но, если был такой результат, то есть шанс улучшить. Вопрос тут насколько шум уникален для сети и будет ли результат лучше статистических методов фильтрации

Скажем так, чтобы заработали чисто статистические методы, важно чтобы ничего не портило статистик :-)

Нейросеть же, способна использовать продукты искажений благо на потребу. Мы так низкие частоты слышим и высокое разрешение по частоте на них имеем.

Никакой шум нельзя убрать в принципе. Его можно только замаскировать ценой порчи полезного сигнала. И нейросети здесь нафиг не нужны. Здесь нужен грамотный программист со знанием теории чуть больше, чем оконное FFT.

Ну нет. Вы можете представить как звук будет звучать без шума? Можете. Чем нейросеть хуже чем вы?

Ну с таким подходом вы рановато остановились. Можно продолжать представлять — что плагин написан и продан за сто миллионов долларов, вся работа по шумоочищению уже проделана, и вот вы уже слушаете первую версию "Band on the run" в личном замке на юге Франции попивая слёрм.


Нейросеть хуже чем я, потому что это не ИИ. У ней нет ни фантазии, ни воображения, ни абстрактного мышления, ни формального аппарата, ничего. Это просто структура для хранения данных с потерями, а приравнивание её к ИИ это такой модный тренд и желание некоторых людей верить в чудо.


Что касается шума ленты — так его можно просто замерить, тут не нужно ни фантазировать, ни накапливать большие данные, достаточно просто паузы между треками. Однако основная проблема ленты не в шуме, а в перемагничивании, в результате чего сигнал смешивается с задержанной и искажённой версией самого себя. Соответственно для решения этой проблемы в реальном мире эти параметры нужно вычислить на протяжении всего времени звучания (а они очевидно не константны, поскольку по ходу проигрывания радиус катушки уменьшается), а затем решать задачу обратной свёртки.

Задача шумоподавления стоит отдельно. Наша модель может справиться с ней, отделив искажения в отдельный источник, а именно в other. Если хотите, можете предоставить сэмплы с шумами, и мы вернёмся к вам с результатами.

Сэмплы с шумами лучше спрашивать у товарища выше @konstanttin-а, для которого эта задача имеет практический интерес. У меня сейчас ничего такого нет, а подмешивать искусственный шум неспортивно, потому что он отличается он настоящего равномерным спектром и распределённой энергией.

Но если вам интересен именно челлендж, давайте возьмём более близкую к вашей теме задачу — выделение центра из стерео сигнала, причём с возможностью восстановление оригинального сигнала через сложение. Другими словами, имея
Lsrc = L+C
Rsrc = R+C

Нужно найти C, L и R.

В качестве испытуемого предлагаю взять вступление к Time из альбома Dark Side Of The Moon группы Pink Floyd, со своей стороны вы тоже можете предложить что угодно. Затем вы напишите статью «нейросети vs. формальной математики», я добавлю свои варианты в комментариях, а затем вы добавите опрос в статью, чтобы непредвзятый пользователь смог сам решить, чей вариант ему понравился больше.

Буржуи выкладывают свои модели в опенсорс почемуто. А вы?

Конкретно этот трек можно разделить на компоненты без всякой магии и нейросетей, а результат получится даже лучше. Чтобы как-то претендовать на честность, нужно а) брать моно трек, потому что в стерео часто разносят инструменты по каналам и б) разделять инструменты, играющих в одном частотном диапазоне. Симфонический оркестр разберите по инструментам без артефактов звучания — вот тогда уже можно будет претендовать и на магию.

  1. Распознаем произведение - получаем название, "Шазам" нам в помощь.

  2. Скачиваем оркестровую партитуру.

  3. Играем её используя нужные звукобанки.

  4. Profit!
    Это шутка, конечно, но кто-то жаловался, что кажется Apple подменяла аудиофайлы в личной коллекции, на... другие исполнения той же вещи. (Деталей не помню, но суть такая).


Абсолютно с вами согласны. Симфонический оркестр – это то, к чему мы стремимся. Надеемся добиться этого уже скоро.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий