Как стать автором
Обновить

Комментарии 42

Производители профессиональных микрофонов напряглись?

Надо бы прогнать старые записи через разделителя голоса\музыки, вокальную дорожку прогнать через этот сервис, и посмотреть, что получится обратно при сведении ..

НЛО прилетело и опубликовало эту надпись здесь

А когда этот последний раз был? За пару лет в этом классе наделали всякого "на базе ИИ". Качество - сойдёт на ремикс без тихих участков. То есть "мусор" в изолированном этими тулзами вокальном треке остаётся, но его сравнительно легко заглушить музыкой. Уж точно лучше дедовских методов через выделение среднего канала.

Я лично баловался с https://vocalremover.org/ пару месяцев назад.

Тут уже ответили про вокалремовер.. Есть еще другая штука https://www.lalal.ai/ ... Их сейчас как грибы после дождя ..

@sergree про них упомянул в статье.

По попугаям и по ощущениям Demucs v4 на данный момент лучший.

попробуйте, будете приятно удивлены https://mvsep.com/ или iZotope RX Audio Editor (функция Music rebalance)

Ради прикола я взял выход кодека известного как AMBE++ для DMR связи от нашей качественной тестовой записи, прогнал его через предлагаемый Улучшайзер и... получил крайне необычное произношение напоминающее грузинский вариант русского языка.

Первая спектрограмма - исходный файл после кодека (данная версия кодека - просто AMBE без ++, это то над чем я сейчас работаю)

Вторая спектрограмма - после улучшайзера.

При звучании "улучшенного" варианта по мозгам бьют носовые согласные

Поскольку интерпретация спектрограмм дело не простое, можно добавить комментарии.

Фраза начинается - "В Советском Союзе большое внимание..."

Звук "В" улучшайзер снес - он выглядит как шумовое облако вначале, ну и ...

Звук "б" перед гласной - это носовой звук перед гласной - был крайне сильно укорочен.

Из любопытных артефактов - местами есть удвоение периода питча.

Общая задержка обработчика улучшайзера - примерно 145 мсек.

Для изучения структуры звуков речи можно порекомендовать канал на Ютюбе

Было бы неплохо иметь и оффлайн версию, например на ютубе есть много хороших длинных полуторачасовых лекций, где микрофон не прикреплен к лектору, а тихоня-лектор вдобавок пишет что-то на доске, стоя спиной к аудитории и микрофону.
Пару послушал, в принципе да. Не могу сразу найти «хорошие» примеры, но, например, в этом видео оратора заглушает скрип стульев, а аудиторию слышно гораздо лучше.

прогнал звук с видео снятого на телефон для местечкового интервью. Видео было снято в помещении с постоянным шумом. Получилось неплохо на первый взгляд, но спикеры начинаю временами картавить, а иногда вовсе говорить очень мягко. Без каких либо настроек это пока неюзабельно.

выше говорил о тесте звука после процессинга онлайн, но вот когда скачал и прослушал стало намного хуже, как раз таки появился вышеупомянутый грузинский акцент

Скорее всего сервис на английский язык ориентировали и добавляются нотки подкастера.
Подождем варианты, которые можно на другие языки переучить.

Вот. Наконец-то дельное применение =))

И изображение почистить бы. А то в последнем фильме Камерона синие инопланетяне сражаются с тучами летающих иксбетов

Я сейчас поэкспериментировал, и загнал туда трек Ария - Торреро. Нейросеть причудливо распознало голос Кипелова, приняв его за женский - раз. И часть музыки пыталась перевести в разряд разговора, что-то там напивая явно с английским акцентом. Так что инструмент так себе. Чисто голос загнать с микрофона - вытягивает, подчищает. Чуть дорожка посложнее - сыпется

Попробовал этот трек сначала демуксить при помощи UVRv5 моделью demucs v4 htdemucs_ft, затем получившийся вокальный трек прогнал через этот улучшайзер от Adobe.

Получилось, мягко говоря, не очень. Кипелов почему-то начал петь с акцентом как Клаус Майне и очень сильно потерял в вокальном диапазоне.

https://drive.google.com/drive/folders/1GW2hyQGMqHbM15kb5DiwhdRe-991mK5r?usp=sharing

Такое впечатление, что нейросеть натренерована не на выбрасывание лишнего шума и улучшение характеристик, а идет по принципу "на что это больше похоже?", подставляя в найденные звуки заплатки более высокого качества, и всё ... В итоге получается не очень...

Нужно звук в старых советских мультиках исправить, а то там вообще голоса не разобрать.

Решил попробовать прогнать фрагмент из кота Леопольда, получилось прикольно, но некоторые артефакты есть
Сначала конвертировал аудио 5.1 в стерео, затем отделил demucs v4 голос и затем воспользовался сабжем
https://drive.google.com/drive/folders/1b9JQl1qg55azvGgSm3kAJL-FRDPdCp8K?usp=share_link

Извиняюсь за оффтопик, но откуда звук 5.1 в мультфильме сорокалетней давности?

Честно - не знаю :)
Такая дорожка была с файлом из торрентов.
Но я предполагаю, что скорее всего при оцифровке ленты пытались раздуть моно дорожку до подобия стерео.

Прогоните через него кто-нибудь, пож-ста, знаменитую песню 'Like the wind', она же The most misterious song in internet', а то до сих пор спорят, какие там слова.

https://youtu.be/zPGf4liO-KQ

Ну и можно много чего прогнать. Такой улучшайзер звука нужен много где...

Прогнал. Результат жутковатый. Основной голос отошёл на второй план, а на первом появился новый - похоже на куски слов, которыми дополняется не совсем разборчивая синтезированная речь.

Прогнал
cloud.mail.ru/public/aNMj/gv4iwdHkx
aldekotan
новое современное звучание, стильно молодежно)))

upd Я думал только с Летовым происходят попытки допеть, добавить обрывки слов и тд, а это сплошь и рядом на музыке.

Отлично подпевает кстати =))

Эти подпевки напоминают
Scatman (ski-ba-bop-ba-dop-bop)

Да, забавно))) Не в той плоскости оно пытается улучшать: я по описанию думал, что оно именно автоматически улучшает музыку: что-то типа как фоторедакторы имеют автоматическое улучшение баланса белого, динамического диапазона, цветокоррекции и пр., так и тут, думал, расширит частотный диапазон, мягко придушит шумы и т.д. А оно, видимо, заточено только для голоса.

Да и то - с натяжкой. Пропускаешь через него аудиодорожку с вокалом, а на выходе - кусок субстанции получаешь. Нейронку они тренировали по ходу просто записью в студии на 2 микрофона. Плохой и хороший. Потом нейросети сказали - вот так надо, а вот так не надо.. Нейронка поняла разницу между двумя треками, и в итоге выпустили продукт. На деле достаточно сырой, узкий по диапазону...

такое чувство, что заточено только на английский язык, закинул лекцию, в которой было много эха - вырываются какие-то английские звуки :)

ну а так работает хорошо, убирает резонансы помещения, клипинг и т.д., на англ работает годно.

НЛО прилетело и опубликовало эту надпись здесь

Безотносительно данной программы, разница в частотном диапазоне и динамическом диапазоне микрофонов. Ну и шумы, да.

Немного не понял претензий к программы из-за "порчи" песен. Как я понял из описания, это инструмент для исправления исключительно голоса, удаление фоновых шумов, коррекция спектра и тд.

Инструмент вроде этого есть в оффлайновой проге DaVinci Resolve с версии вроде как 18.1

Ну так претензия-то по-хорошему ровно в этом и лежит, что аудиодорожку с вокалом портит. Не всю песню засунуть (странно, что кто-то ожидал иного), а именно голосовая дорожка. Если это просто текст - ИИ его неплохо чистит. В моем примере получилось отфильтровать Марка Бернеса неплохо весьма. А вот если человек не проговаривает, а поет с изменением ноты, вытягивает ноту и пр - ИИ сходит с ума... Кроме того, ИИ чувствителен к качеству предлагаемого трека. Если это ушатанная аудиодорожка, какая-то плохо слышимая сцена - он начинает по собственному усмотрению реставрировать, вставляя какие-то вселенские звуки ... Никто в общем-то не говорит о том, что инструмент плдох, и его надо на свалку - я вот внес себе в закладки. Но пока это похоже либо на сырой продукт, либо вообще местный программер за пару вечеров написал, и уговорил руководство по фану выпустить инструмент в эфир ...

Загрузил вокальную дорожку одной из своих старых песен. В полученной записи больше низа, меньше верха, слышна характерная для "репортажных" записей компрессия на согласных. Как верно указал товарищ AndrewBond, это не для музыки.

Спектр

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости