Комментарии 8
Для генерации аудио одной спектрограммы мало. Спектрограмма сохраняет только значения амплитуд, но теряет информацию о фазе сигнала…
А вообще идея интересная, думал о подобной схеме на базе диффузионного автоэнкодера, только для голоса. Но хороших результатов достичь не получилось…
Для эффектов окружения и панорамы нужно взять отдельную модель. Для моно звука фаза не нужна.
Если бы фаза была не важна, не было бы столько научных работ по её воссозданию из спектрограмм (гуглить «spectrogram phase reconstruction»). Серебрянной пули до сих пор нет, что-то работает чуть лучше на одних кейсах, что-то на других…
Возможно я не до конца понимаю, но мне кажется, что на спектрограмме фаза потеряна навсегда. Можно попытаться правдоподобно восстановить, но не более того.
В данном случае (как я понимаю) речь идет о моно-звуке и там фаза уже не так важна. Разумеется меломаны скажут "обязательно с сохранением фазы".
Вы путаете фазу и панораму, фаза влияет на любую волну, в стерео их просто две. И нет, дело не в меломанстве. Звук с «потерянной» фазой звучит очень неестественно (иногда до уровня полного отсутствия желания его слушать). Восстановить её «правдоподобно» можно, если точно знать сферу применения алгоритма - для чистого голоса в общем случае это делается несложно, для инструментальной музыки в целом возможно, но сложнее, для электронной - не слышал ни одного алгоритма который восстановил бы хотя бы до уровня «слушабельно».
Отлично подходит для технологии дипфейк. Можно симулировать источник звука и окружение
Генерация аудио диффузионной нейросетью. Стоит ли использовать обычную диффузию для генерации мел-спектрограмм?