Nikuson 28 дек 2022 в 16:00

Генерация аудио диффузионной нейросетью. Стоит ли использовать обычную диффузию для генерации мел-спектрограмм?

14 мин

4.3K

Блог компании RUVDS.comМашинное обучение*Искусственный интеллект

+34

Комментарии 8

DjPhoeniX 28 дек 2022 в 22:34

Для генерации аудио одной спектрограммы мало. Спектрограмма сохраняет только значения амплитуд, но теряет информацию о фазе сигнала…

А вообще идея интересная, думал о подобной схеме на базе диффузионного автоэнкодера, только для голоса. Но хороших результатов достичь не получилось…

maxlilt 29 дек 2022 в 08:38

Для эффектов окружения и панорамы нужно взять отдельную модель. Для моно звука фаза не нужна.

sergree 29 дек 2022 в 16:27

Фаза в данном контексте не относится к стерео. Если представить ДПФ в виде полярных координат, то получаются магнитуды и фазы. Без учёта фаз восстановить сигнал не получится

imageman 3 янв 2023 в 11:14

Я думаю фаза не важна. Надеюсь автор @Nikuson может показать пример звучания птицы до конвертирования и после обратного конвертирования (после upscale из 64х64 пикселей)?

DjPhoeniX 3 янв 2023 в 17:37

Если бы фаза была не важна, не было бы столько научных работ по её воссозданию из спектрограмм (гуглить «spectrogram phase reconstruction»). Серебрянной пули до сих пор нет, что-то работает чуть лучше на одних кейсах, что-то на других…

imageman 3 янв 2023 в 17:49

Возможно я не до конца понимаю, но мне кажется, что на спектрограмме фаза потеряна навсегда. Можно попытаться правдоподобно восстановить, но не более того.

В данном случае (как я понимаю) речь идет о моно-звуке и там фаза уже не так важна. Разумеется меломаны скажут "обязательно с сохранением фазы".

DjPhoeniX 3 янв 2023 в 18:08

Вы путаете фазу и панораму, фаза влияет на любую волну, в стерео их просто две. И нет, дело не в меломанстве. Звук с «потерянной» фазой звучит очень неестественно (иногда до уровня полного отсутствия желания его слушать). Восстановить её «правдоподобно» можно, если точно знать сферу применения алгоритма - для чистого голоса в общем случае это делается несложно, для инструментальной музыки в целом возможно, но сложнее, для электронной - не слышал ни одного алгоритма который восстановил бы хотя бы до уровня «слушабельно».

RavilMuslyumov 29 дек 2022 в 15:07

Отлично подходит для технологии дипфейк. Можно симулировать источник звука и окружение

Зарегистрируйтесь на Хабре, чтобы оставить комментарий