maybe_elf7 янв 2023 в 09:10

Adobe запустила бесплатный инструмент для превращения обычных записей в «студийные»

1 мин

102K

Облачные сервисы * Искусственный интеллектЗвук

+21

Комментарии 42

grvelvet 7 янв 2023 в 09:19

Производители профессиональных микрофонов напряглись?

gionet 7 янв 2023 в 10:18

Надо бы прогнать старые записи через разделителя голоса\музыки, вокальную дорожку прогнать через этот сервис, и посмотреть, что получится обратно при сведении ..

НЛО прилетело и опубликовало эту надпись здесь

YegorP 7 янв 2023 в 11:14

А когда этот последний раз был? За пару лет в этом классе наделали всякого "на базе ИИ". Качество - сойдёт на ремикс без тихих участков. То есть "мусор" в изолированном этими тулзами вокальном треке остаётся, но его сравнительно легко заглушить музыкой. Уж точно лучше дедовских методов через выделение среднего канала.

Я лично баловался с https://vocalremover.org/ пару месяцев назад.

gionet 7 янв 2023 в 11:34

Тут уже ответили про вокалремовер.. Есть еще другая штука https://www.lalal.ai/ ... Их сейчас как грибы после дождя ..

economist75 7 янв 2023 в 19:03

Хорошо работает вот это:
https://moises.ai/products/moises-webapp/

olku 7 янв 2023 в 21:01

@sergree про них упомянул в статье.

w3h 7 янв 2023 в 22:44

По попугаям и по ощущениям Demucs v4 на данный момент лучший.

Maximuzz 8 янв 2023 в 13:45

попробуйте, будете приятно удивлены https://mvsep.com/ или iZotope RX Audio Editor (функция Music rebalance)

sinc_func 7 янв 2023 в 10:47

Ради прикола я взял выход кодека известного как AMBE++ для DMR связи от нашей качественной тестовой записи, прогнал его через предлагаемый Улучшайзер и... получил крайне необычное произношение напоминающее грузинский вариант русского языка.

sinc_func 7 янв 2023 в 11:27

Первая спектрограмма - исходный файл после кодека (данная версия кодека - просто AMBE без ++, это то над чем я сейчас работаю)

Вторая спектрограмма - после улучшайзера.

При звучании "улучшенного" варианта по мозгам бьют носовые согласные

sinc_func 8 янв 2023 в 07:16

Поскольку интерпретация спектрограмм дело не простое, можно добавить комментарии.

Фраза начинается - "В Советском Союзе большое внимание..."

Звук "В" улучшайзер снес - он выглядит как шумовое облако вначале, ну и ...

Звук "б" перед гласной - это носовой звук перед гласной - был крайне сильно укорочен.

Из любопытных артефактов - местами есть удвоение периода питча.

Общая задержка обработчика улучшайзера - примерно 145 мсек.

Для изучения структуры звуков речи можно порекомендовать канал на Ютюбе

ru1z 7 янв 2023 в 10:52

Было бы неплохо иметь и оффлайн версию, например на ютубе есть много хороших длинных полуторачасовых лекций, где микрофон не прикреплен к лектору, а тихоня-лектор вдобавок пишет что-то на доске, стоя спиной к аудитории и микрофону.

tormozedison 7 янв 2023 в 10:54

Как на Chaos Constructions? Полно оттуда таких лекций.

ru1z 7 янв 2023 в 11:32

Пару послушал, в принципе да. Не могу сразу найти «хорошие» примеры, но, например, в этом видео оратора заглушает скрип стульев, а аудиторию слышно гораздо лучше.

RocketMen 7 янв 2023 в 11:43

прогнал звук с видео снятого на телефон для местечкового интервью. Видео было снято в помещении с постоянным шумом. Получилось неплохо на первый взгляд, но спикеры начинаю временами картавить, а иногда вовсе говорить очень мягко. Без каких либо настроек это пока неюзабельно.

RocketMen 7 янв 2023 в 11:52

выше говорил о тесте звука после процессинга онлайн, но вот когда скачал и прослушал стало намного хуже, как раз таки появился вышеупомянутый грузинский акцент

ru1z 7 янв 2023 в 13:28

Скорее всего сервис на английский язык ориентировали и добавляются нотки подкастера.
Подождем варианты, которые можно на другие языки переучить.

stanislavshwartsman 7 янв 2023 в 13:12

экранку из кинотеатра отчистит ?

gionet 7 янв 2023 в 15:57

Вот. Наконец-то дельное применение =))

Didimus 7 янв 2023 в 16:39

И изображение почистить бы. А то в последнем фильме Камерона синие инопланетяне сражаются с тучами летающих иксбетов

gionet 7 янв 2023 в 21:50

Я сейчас поэкспериментировал, и загнал туда трек Ария - Торреро. Нейросеть причудливо распознало голос Кипелова, приняв его за женский - раз. И часть музыки пыталась перевести в разряд разговора, что-то там напивая явно с английским акцентом. Так что инструмент так себе. Чисто голос загнать с микрофона - вытягивает, подчищает. Чуть дорожка посложнее - сыпется

iiiytn1k 8 янв 2023 в 00:46

Попробовал этот трек сначала демуксить при помощи UVRv5 моделью demucs v4 htdemucs_ft, затем получившийся вокальный трек прогнал через этот улучшайзер от Adobe.

Получилось, мягко говоря, не очень. Кипелов почему-то начал петь с акцентом как Клаус Майне и очень сильно потерял в вокальном диапазоне.

https://drive.google.com/drive/folders/1GW2hyQGMqHbM15kb5DiwhdRe-991mK5r?usp=sharing

gionet 8 янв 2023 в 07:23

Такое впечатление, что нейросеть натренерована не на выбрасывание лишнего шума и улучшение характеристик, а идет по принципу "на что это больше похоже?", подставляя в найденные звуки заплатки более высокого качества, и всё ... В итоге получается не очень...

lucius 7 янв 2023 в 18:39

Нужно звук в старых советских мультиках исправить, а то там вообще голоса не разобрать.

w3h 8 янв 2023 в 03:41

Решил попробовать прогнать фрагмент из кота Леопольда, получилось прикольно, но некоторые артефакты есть
Сначала конвертировал аудио 5.1 в стерео, затем отделил demucs v4 голос и затем воспользовался сабжем
https://drive.google.com/drive/folders/1b9JQl1qg55azvGgSm3kAJL-FRDPdCp8K?usp=share_link

AndreyDmitriev 8 янв 2023 в 07:13

Извиняюсь за оффтопик, но откуда звук 5.1 в мультфильме сорокалетней давности?

w3h 8 янв 2023 в 08:10

Честно - не знаю :)
Такая дорожка была с файлом из торрентов.
Но я предполагаю, что скорее всего при оцифровке ленты пытались раздуть моно дорожку до подобия стерео.

НЛО прилетело и опубликовало эту надпись здесь

stalinets 7 янв 2023 в 21:23

Прогоните через него кто-нибудь, пож-ста, знаменитую песню 'Like the wind', она же The most misterious song in internet', а то до сих пор спорят, какие там слова.

https://youtu.be/zPGf4liO-KQ

Ну и можно много чего прогнать. Такой улучшайзер звука нужен много где...

aldekotan 7 янв 2023 в 22:44

Прогнал. Результат жутковатый. Основной голос отошёл на второй план, а на первом появился новый - похоже на куски слов, которыми дополняется не совсем разборчивая синтезированная речь.

НЛО прилетело и опубликовало эту надпись здесь

gionet 8 янв 2023 в 07:35

Отлично подпевает кстати =))

НЛО прилетело и опубликовало эту надпись здесь

stalinets 8 янв 2023 в 14:50

Да, забавно))) Не в той плоскости оно пытается улучшать: я по описанию думал, что оно именно автоматически улучшает музыку: что-то типа как фоторедакторы имеют автоматическое улучшение баланса белого, динамического диапазона, цветокоррекции и пр., так и тут, думал, расширит частотный диапазон, мягко придушит шумы и т.д. А оно, видимо, заточено только для голоса.

gionet 8 янв 2023 в 16:31

Да и то - с натяжкой. Пропускаешь через него аудиодорожку с вокалом, а на выходе - кусок субстанции получаешь. Нейронку они тренировали по ходу просто записью в студии на 2 микрофона. Плохой и хороший. Потом нейросети сказали - вот так надо, а вот так не надо.. Нейронка поняла разницу между двумя треками, и в итоге выпустили продукт. На деле достаточно сырой, узкий по диапазону...

YuryB 8 янв 2023 в 22:17

такое чувство, что заточено только на английский язык, закинул лекцию, в которой было много эха - вырываются какие-то английские звуки :)

ну а так работает хорошо, убирает резонансы помещения, клипинг и т.д., на англ работает годно.

НЛО прилетело и опубликовало эту надпись здесь

AndrewBond 9 янв 2023 в 08:39

Безотносительно данной программы, разница в частотном диапазоне и динамическом диапазоне микрофонов. Ну и шумы, да.

AndrewBond 9 янв 2023 в 07:20

Немного не понял претензий к программы из-за "порчи" песен. Как я понял из описания, это инструмент для исправления исключительно голоса, удаление фоновых шумов, коррекция спектра и тд.

Инструмент вроде этого есть в оффлайновой проге DaVinci Resolve с версии вроде как 18.1

gionet 9 янв 2023 в 13:03

Ну так претензия-то по-хорошему ровно в этом и лежит, что аудиодорожку с вокалом портит. Не всю песню засунуть (странно, что кто-то ожидал иного), а именно голосовая дорожка. Если это просто текст - ИИ его неплохо чистит. В моем примере получилось отфильтровать Марка Бернеса неплохо весьма. А вот если человек не проговаривает, а поет с изменением ноты, вытягивает ноту и пр - ИИ сходит с ума... Кроме того, ИИ чувствителен к качеству предлагаемого трека. Если это ушатанная аудиодорожка, какая-то плохо слышимая сцена - он начинает по собственному усмотрению реставрировать, вставляя какие-то вселенские звуки ... Никто в общем-то не говорит о том, что инструмент плдох, и его надо на свалку - я вот внес себе в закладки. Но пока это похоже либо на сырой продукт, либо вообще местный программер за пару вечеров написал, и уговорил руководство по фану выпустить инструмент в эфир ...

sergey-antonov 9 янв 2023 в 08:52

Загрузил вокальную дорожку одной из своих старых песен. В полученной записи больше низа, меньше верха, слышна характерная для "репортажных" записей компрессия на согласных. Как верно указал товарищ AndrewBond, это не для музыки.

Спектр

Зарегистрируйтесь на Хабре, чтобы оставить комментарий