Цифровая реставрация аудио
Этот процесс может быть как нетривиальным, так и крайне сложным. Но за последний десяток лет цифровые методы значительно шагнули вперёд, заменив кропотливую работу с узкопрофильными алгоритмами на нажатие двух кнопок для получения желаемого результата. Я изучил почти всё, что может предоставить нынешняя индустрия пользователю — от сайтов, программ и облачных решений до ИИ. И поделюсь с вами своим 2-летним опытом в данной сфере.
Уточнение: эта статья является сборником самых эффективных методов и способов их применения, а не 2-летним блогом с перебором всего подряд.
Разбиение задачи по частям
Как и любой сложный процесс, реставрацию аудио стоит разбить на несколько этапов, чтобы не утомиться в процессе. Мы начнём с автоматических методов на основе нейросетей. Далее рассмотрим полуавтоматические способы, а закончим ручной обработкой в Audacity.
Содержание
Нейросети
▍ Ultimate Vocal Remover
Эффективный инструмент для разделения вокала и инструментальной части. Программа предлагает три архитектуры моделей для этой задачи, однако мы сосредоточимся на MDX-NET Inst HQ. В большинстве случаев разделение аудио на вокал и музыку существенно упрощает дальнейшую работу.
▍ Установка
Переходим на Github-репозиторий Ultimate Vocal Remover, находим последний релиз программы и устанавливаем его. Владельцы видеокарт AMD могут воспользоваться версией с поддержкой OpenCL, что значительно ускорит работу софта.
▍ Запуск и скачивание модели
Нажимаем на «Choose MDX-Net model», затем выбираем «Download more models», ищем последнюю версию MDX Inst HQ и скачиваем её. Интерфейс программы интуитивно понятен, поэтому подробное описание не требуется. Стоит отметить возможность одновременной обработки нескольких аудиофайлов в меню с путём до исходника.
▍ Техническая часть MDX-Net
Архитектура MDX-Net была представлена в 2021 году в рамках конкурса Music Demixing Challenge (MDX), проводимого на платформе AIcrowd. Этот конкурс являлся частью инициативы Sony Music по разработке передовых моделей для разделения музыкальных треков на отдельные составляющие: вокал, ударные, бас и другие инструменты. MDX-Net использует комбинацию методов глубокого обучения, включая U-Net (архитектура для обработки данных), 3D-свёртки (метод анализа аудиоданных), преобразование Фурье (инструмент для работы с частотами звука) и остаточное обучение (способ упрощения задачи для модели).
▍ Elevenlabs
В нынешних условиях это неоднозначное решение, поскольку компания ушла из России. Однако это один из самых простых способов получить качественное преобразование «голос в голос», то есть то, что вы произнесли в приложенном аудио, будет идентично повторено нейросетью с более профессиональным голосом. Это даёт несколько преимуществ перед традиционным преобразованием текста в голос: ровный тембр и правильные ударения. Таким образом, можно создать идеальную закадровую озвучку видео, если это проще, чем реставрировать аудио. Ссылка на сайт.
Дополнительная настройка почти всегда обязательна. Как минимум, стоит выбрать мультиязычную модель. Для каждого встроенного голоса основные параметры нужно настраивать индивидуально. Не бойтесь поднимать значения выше «опасных», это редко приводит к разрушению модели, но выше 80% лучше не подниматься.
На сайте есть интересный инструмент для дубляжа видео — Eleven Dubbing. Его не буду детально рассматривать. Нейросеть неплохо копирует голоса, но транскрипция оригинального видео оставляет желать лучшего и не учитывает визуальный контекст.
▍ SpectraLayers
Очень мощный софт с обширным ИИ-функционалом для разделения голосов и музыкальных элементов на треке. Это позволяет, например, убрать закадровый смех, который многим кажется раздражающим. В программе также есть инструменты для очистки голоса, однако она бедна на стандартные функции, не требующие нейросетей.
▍ RVC
Альтернатива Elevenlabs для замены одного голоса на другой. Чтобы запустить данную нейросеть, можно использовать как аппаратные мощности вашего ПК, так и Google Colab. Например, интерфейс PolGen запускается буквально в два клика, и через 5 минут в блокноте Google Colab система будет готова, однако есть лимит на 5 часов бесплатного использования в день.
▍ Где найти модели голоса?
Есть сайт Voice Models с базой из десятков тысяч голосов, доступных для использования в RVC. Оттуда нужно просто скопировать ссылку на нужную модель (важно, чтобы она была русскоязычной — это можно определить по наличию кириллицы в названии) и на вкладке скачивания голосов в PolGen загрузить её.
▍ Советы по использованию
Просто регулируйте тон голоса с помощью ползунка. Если это не помогло, скорее всего, вы выбрали плохо обученную модель.
▍ Технические особенности RVC
RVC (Retrieval-based Voice Conversion) использует комбинацию современных технологий обработки речи и машинного обучения. Основу архитектуры составляет предобученная модель HuBERT (для извлечения акустических признаков), энкодер содержания (для выделения характеристик голоса) и генератор на основе HiFi-GAN (для синтеза высококачественного аудио). RVC также применяет технику извлечения основного тона f0 (для сохранения интонации исходного голоса) и метод Top-k поиска (для улучшения качества преобразования). Эти компоненты работают совместно, позволяя модели эффективно преобразовывать голос одного человека в голос другого, сохраняя при этом естественность звучания и особенности исходной речи.
Веб-сервисы
▍ Auphonic
Веб-сервис для восстановления аудио. Отличная замена Adobe Podcast, так как он лучше справляется с определением языка для нейросети. Часто тот же Adobe Podcast ошибается с определением языка загружаемой записи, и в результате выдаёт ещё более испорченное аудио. Кроме основной функции, Auphonic также умеет вырезать фоновую музыку или голос.
▍ Gladia
Полезный сайт для автоматического создания субтитров с помощью ИИ, предлагающий бесплатный тариф с лимитом до 10 часов аудио. Отлично подходит для создания собственной закадровой озвучки. Текст перевода лучше сделать самостоятельно, чтобы избежать возможных ошибок, как это бывает с Eleven Dubbing. Вы также можете воспользоваться Chat GPT, предоставив ему общий и визуальный контекст.
Ручной метод
▍ Audacity
Программа для работы с аудио с открытым исходным кодом, которая предлагает множество инструментов, работающих на алгоритмах. Несмотря на это, софт остаётся таким же удобным в использовании, как и другие программы. В нём удобно сводить результаты работы и выполнять ручные задачи, такие как подгонка скорости аудио, обрезка, регулировка громкости отдельных участков и т. д. Однако Audacity значительно увеличивает размер своих проектов, и вместо ожидаемых сотен мегабайт вы можете получить целые десятки гигабайт, что иногда приводит к зависанию процесса сохранения. Лучше сначала экспортировать аудио, а уже потом сохранять проект, чтобы в случае ошибки у вас была хотя бы скомпонованная версия файла. Восстановить сами проекты после ошибки обычно невозможно, но попробовать стоит.
Если вы захотели написать „А почему не Reaper?“ или „А почему не Adobe Audition?“
а) Он БЕСПЛАТНЫЙ
б) Он в несколько раз ЛЕГЧЕ в освоении
в) Он есть на всех ОС
Но назревает вопрос, почему тогда я написал о Spectralayers? Так вот у него НЕТ бесплатных альтернатив, так что это не является тем же случаем.
б) Он в несколько раз ЛЕГЧЕ в освоении
в) Он есть на всех ОС
Но назревает вопрос, почему тогда я написал о Spectralayers? Так вот у него НЕТ бесплатных альтернатив, так что это не является тем же случаем.
Рассмотрение частных случаев
▍ Восстановление озвучки со старого ТВ-вещания
В данном примере у нас имеется запись вещания с озвучкой старого мультика, с датой 1995 года. После оцифровки VHS-записи мы получаем это:
Сначала разделим запись на инструментал и голос с помощью UVR (Ultimate Voice Remover).
Затем, чтобы восстановить качество VHS звука до современного уровня, воспользуемся Auphonic.
Объединить это также легко с помощью Audacity. Перетаскиваем на проект нашу новую запись и ранее полученный инструментал из Ultimate Voice Remover.
Как видно, даже с минимальными усилиями можно сделать очень хорошую реставрацию такого аудио.
▍ Плохая запись с шумом и гамом
Как правило, это почти всегда относится к записям, сделанным на лекциях.
В этот раз воспользуемся Auphonic. Достаточно выбрать пресет voice cleaner (remove music).
Однако, если вы не хотите делиться своим контентом с какой-либо из корпораций, можно прибегнуть к локальному ПО для получения практически аналогичного результата. В Spectralayers используем Unmix Noisy Speech и затем Denoise Voice. Голос не звучит консервно, как это было раньше, но при этом информация о голосе потерялась больше.
▍ Как убрать закадровый смех
Всё, что нам нужно сделать, — это прогнать желаемый вокал (после UVR и желательно с версией Inst HQ 3) через программу Spectralayers, получая три отдельных результата с инструментами Unmix Crowd Noise, Unmix Noisy Speech и Voice Denoise. Затем переносим полученные аудиодорожки в Audacity и выбираем самый удачный сегмент.
На результате они стали в несколько раз менее нативными, чем были, а сам голос не пострадал. Не идеально, но, к сожалению, лучшее из того, что сейчас имеется:
▍ Демо версии записей
Часто встречаются редкие записи (демки), которые не вышли в эфир во времена записи на кассеты, до оцифровки. Эти записи переслушивались множество раз и дошли до нас в плохом качестве. Почти всегда у этих демок есть конечные версии, которые содержат изменения в тексте, но не в инструментальной части. В данном случае мы видим проблемы с изменением высоты голоса, а общий стиль звука напоминает консервную банку. Мы можем исправить обе проблемы, но только в том случае, если уже есть готовая модель голоса музыканта в архиве. А также необходимо предварительно, если это возможно, отделить его голос от остальных с помощью spectralayers.
Сначала достаём голос из записи и инструментал из хорошей версии с помощью программы UVR. Затем, работая в Spectralayers, используем инструмент normalize, выбирая нужные сегменты для нормализации уровня громкости. После этого попробуем воспользоваться RVC, хоть нужного голоса в базе нет, но мы можем попробовать воспользоваться другим — например, исполнитель из The Police. А так, вам никто не мешает обучить собственную RVC-модель с нужным голосом на хороших примерах.
Проблемы с консервным звуком пропали, но голос уже не тот. Однако в целом метод рабочий, и на более обученных моделях конец записи тоже получался хорошим(но голос ещё сильнее тут был ни к месту).
Заключение
Цифровая реставрация аудио прошла значительный путь развития, предоставляя пользователям широкий спектр инструментов — от нейросетей до специализированного программного обеспечения. Хотя полностью автоматизированные решения становятся все более доступными, наилучших результатов по-прежнему можно достичь, комбинируя различные методы и подходы. Важно отметить, что успешная реставрация часто требует не только технических навыков, но и творческого подхода, особенно при работе со сложными или уникальными записями. Будущее этой области обещает ещё более интересные возможности, потенциально кардинально изменяя способы сохранения и улучшения аудионаследия.
© 2024 ООО «МТ ФИНАНС»
Telegram-канал со скидками, розыгрышами призов и новостями IT 💻