Pull to refresh

Comments 42

Производители профессиональных микрофонов напряглись?

Надо бы прогнать старые записи через разделителя голоса\музыки, вокальную дорожку прогнать через этот сервис, и посмотреть, что получится обратно при сведении ..

UFO just landed and posted this here

А когда этот последний раз был? За пару лет в этом классе наделали всякого "на базе ИИ". Качество - сойдёт на ремикс без тихих участков. То есть "мусор" в изолированном этими тулзами вокальном треке остаётся, но его сравнительно легко заглушить музыкой. Уж точно лучше дедовских методов через выделение среднего канала.

Я лично баловался с https://vocalremover.org/ пару месяцев назад.

Тут уже ответили про вокалремовер.. Есть еще другая штука https://www.lalal.ai/ ... Их сейчас как грибы после дождя ..

По попугаям и по ощущениям Demucs v4 на данный момент лучший.

попробуйте, будете приятно удивлены https://mvsep.com/ или iZotope RX Audio Editor (функция Music rebalance)

Ради прикола я взял выход кодека известного как AMBE++ для DMR связи от нашей качественной тестовой записи, прогнал его через предлагаемый Улучшайзер и... получил крайне необычное произношение напоминающее грузинский вариант русского языка.

Первая спектрограмма - исходный файл после кодека (данная версия кодека - просто AMBE без ++, это то над чем я сейчас работаю)

Вторая спектрограмма - после улучшайзера.

При звучании "улучшенного" варианта по мозгам бьют носовые согласные

Поскольку интерпретация спектрограмм дело не простое, можно добавить комментарии.

Фраза начинается - "В Советском Союзе большое внимание..."

Звук "В" улучшайзер снес - он выглядит как шумовое облако вначале, ну и ...

Звук "б" перед гласной - это носовой звук перед гласной - был крайне сильно укорочен.

Из любопытных артефактов - местами есть удвоение периода питча.

Общая задержка обработчика улучшайзера - примерно 145 мсек.

Для изучения структуры звуков речи можно порекомендовать канал на Ютюбе

Было бы неплохо иметь и оффлайн версию, например на ютубе есть много хороших длинных полуторачасовых лекций, где микрофон не прикреплен к лектору, а тихоня-лектор вдобавок пишет что-то на доске, стоя спиной к аудитории и микрофону.
Пару послушал, в принципе да. Не могу сразу найти «хорошие» примеры, но, например, в этом видео оратора заглушает скрип стульев, а аудиторию слышно гораздо лучше.

прогнал звук с видео снятого на телефон для местечкового интервью. Видео было снято в помещении с постоянным шумом. Получилось неплохо на первый взгляд, но спикеры начинаю временами картавить, а иногда вовсе говорить очень мягко. Без каких либо настроек это пока неюзабельно.

выше говорил о тесте звука после процессинга онлайн, но вот когда скачал и прослушал стало намного хуже, как раз таки появился вышеупомянутый грузинский акцент

Скорее всего сервис на английский язык ориентировали и добавляются нотки подкастера.
Подождем варианты, которые можно на другие языки переучить.

Вот. Наконец-то дельное применение =))

И изображение почистить бы. А то в последнем фильме Камерона синие инопланетяне сражаются с тучами летающих иксбетов

Я сейчас поэкспериментировал, и загнал туда трек Ария - Торреро. Нейросеть причудливо распознало голос Кипелова, приняв его за женский - раз. И часть музыки пыталась перевести в разряд разговора, что-то там напивая явно с английским акцентом. Так что инструмент так себе. Чисто голос загнать с микрофона - вытягивает, подчищает. Чуть дорожка посложнее - сыпется

Попробовал этот трек сначала демуксить при помощи UVRv5 моделью demucs v4 htdemucs_ft, затем получившийся вокальный трек прогнал через этот улучшайзер от Adobe.

Получилось, мягко говоря, не очень. Кипелов почему-то начал петь с акцентом как Клаус Майне и очень сильно потерял в вокальном диапазоне.

https://drive.google.com/drive/folders/1GW2hyQGMqHbM15kb5DiwhdRe-991mK5r?usp=sharing

Такое впечатление, что нейросеть натренерована не на выбрасывание лишнего шума и улучшение характеристик, а идет по принципу "на что это больше похоже?", подставляя в найденные звуки заплатки более высокого качества, и всё ... В итоге получается не очень...

Нужно звук в старых советских мультиках исправить, а то там вообще голоса не разобрать.

Решил попробовать прогнать фрагмент из кота Леопольда, получилось прикольно, но некоторые артефакты есть
Сначала конвертировал аудио 5.1 в стерео, затем отделил demucs v4 голос и затем воспользовался сабжем
https://drive.google.com/drive/folders/1b9JQl1qg55azvGgSm3kAJL-FRDPdCp8K?usp=share_link

Извиняюсь за оффтопик, но откуда звук 5.1 в мультфильме сорокалетней давности?

Честно - не знаю :)
Такая дорожка была с файлом из торрентов.
Но я предполагаю, что скорее всего при оцифровке ленты пытались раздуть моно дорожку до подобия стерео.

Прогоните через него кто-нибудь, пож-ста, знаменитую песню 'Like the wind', она же The most misterious song in internet', а то до сих пор спорят, какие там слова.

https://youtu.be/zPGf4liO-KQ

Ну и можно много чего прогнать. Такой улучшайзер звука нужен много где...

Прогнал. Результат жутковатый. Основной голос отошёл на второй план, а на первом появился новый - похоже на куски слов, которыми дополняется не совсем разборчивая синтезированная речь.

Отлично подпевает кстати =))

Эти подпевки напоминают
Scatman (ski-ba-bop-ba-dop-bop)

Да, забавно))) Не в той плоскости оно пытается улучшать: я по описанию думал, что оно именно автоматически улучшает музыку: что-то типа как фоторедакторы имеют автоматическое улучшение баланса белого, динамического диапазона, цветокоррекции и пр., так и тут, думал, расширит частотный диапазон, мягко придушит шумы и т.д. А оно, видимо, заточено только для голоса.

Да и то - с натяжкой. Пропускаешь через него аудиодорожку с вокалом, а на выходе - кусок субстанции получаешь. Нейронку они тренировали по ходу просто записью в студии на 2 микрофона. Плохой и хороший. Потом нейросети сказали - вот так надо, а вот так не надо.. Нейронка поняла разницу между двумя треками, и в итоге выпустили продукт. На деле достаточно сырой, узкий по диапазону...

такое чувство, что заточено только на английский язык, закинул лекцию, в которой было много эха - вырываются какие-то английские звуки :)

ну а так работает хорошо, убирает резонансы помещения, клипинг и т.д., на англ работает годно.

UFO just landed and posted this here

Безотносительно данной программы, разница в частотном диапазоне и динамическом диапазоне микрофонов. Ну и шумы, да.

Немного не понял претензий к программы из-за "порчи" песен. Как я понял из описания, это инструмент для исправления исключительно голоса, удаление фоновых шумов, коррекция спектра и тд.

Инструмент вроде этого есть в оффлайновой проге DaVinci Resolve с версии вроде как 18.1

Ну так претензия-то по-хорошему ровно в этом и лежит, что аудиодорожку с вокалом портит. Не всю песню засунуть (странно, что кто-то ожидал иного), а именно голосовая дорожка. Если это просто текст - ИИ его неплохо чистит. В моем примере получилось отфильтровать Марка Бернеса неплохо весьма. А вот если человек не проговаривает, а поет с изменением ноты, вытягивает ноту и пр - ИИ сходит с ума... Кроме того, ИИ чувствителен к качеству предлагаемого трека. Если это ушатанная аудиодорожка, какая-то плохо слышимая сцена - он начинает по собственному усмотрению реставрировать, вставляя какие-то вселенские звуки ... Никто в общем-то не говорит о том, что инструмент плдох, и его надо на свалку - я вот внес себе в закладки. Но пока это похоже либо на сырой продукт, либо вообще местный программер за пару вечеров написал, и уговорил руководство по фану выпустить инструмент в эфир ...

Загрузил вокальную дорожку одной из своих старых песен. В полученной записи больше низа, меньше верха, слышна характерная для "репортажных" записей компрессия на согласных. Как верно указал товарищ AndrewBond, это не для музыки.

Спектр

Sign up to leave a comment.

Other news