Как стать автором
Обновить

Генерация аудио диффузионной нейросетью. Стоит ли использовать обычную диффузию для генерации мел-спектрограмм?

Время на прочтение14 мин
Количество просмотров4.3K
Всего голосов 26: ↑24 и ↓2+34
Комментарии8

Комментарии 8

Для генерации аудио одной спектрограммы мало. Спектрограмма сохраняет только значения амплитуд, но теряет информацию о фазе сигнала…

А вообще идея интересная, думал о подобной схеме на базе диффузионного автоэнкодера, только для голоса. Но хороших результатов достичь не получилось…

Для эффектов окружения и панорамы нужно взять отдельную модель. Для моно звука фаза не нужна.

Фаза в данном контексте не относится к стерео. Если представить ДПФ в виде полярных координат, то получаются магнитуды и фазы. Без учёта фаз восстановить сигнал не получится

Я думаю фаза не важна. Надеюсь автор @Nikuson может показать пример звучания птицы до конвертирования и после обратного конвертирования (после upscale из 64х64 пикселей)?

Если бы фаза была не важна, не было бы столько научных работ по её воссозданию из спектрограмм (гуглить «spectrogram phase reconstruction»). Серебрянной пули до сих пор нет, что-то работает чуть лучше на одних кейсах, что-то на других…

Возможно я не до конца понимаю, но мне кажется, что на спектрограмме фаза потеряна навсегда. Можно попытаться правдоподобно восстановить, но не более того.

В данном случае (как я понимаю) речь идет о моно-звуке и там фаза уже не так важна. Разумеется меломаны скажут "обязательно с сохранением фазы".

Вы путаете фазу и панораму, фаза влияет на любую волну, в стерео их просто две. И нет, дело не в меломанстве. Звук с «потерянной» фазой звучит очень неестественно (иногда до уровня полного отсутствия желания его слушать). Восстановить её «правдоподобно» можно, если точно знать сферу применения алгоритма - для чистого голоса в общем случае это делается несложно, для инструментальной музыки в целом возможно, но сложнее, для электронной - не слышал ни одного алгоритма который восстановил бы хотя бы до уровня «слушабельно».

Отлично подходит для технологии дипфейк. Можно симулировать источник звука и окружение

Зарегистрируйтесь на Хабре, чтобы оставить комментарий