Pull to refresh

Comments 15

Как минимум надо указать, что все сравниваемые параметры из таблицы имеют смысл только для сжатия с потерями.
При сжатии с потерями имеет смысл только PEAQ.
Сравнивать форму сигнала при сжатии с потерями — бессмысленно, SNR по той же причине бесполезен.
модельный расчет метрик PSNR и «формы сигналов» для аудио, обработанных различными кодеками показали адекватные результаты и могут быть вполне соотнесены с результатами расчета метрики PEAQ, поэтому по ним тоже можно строить классификацию. Безусловно, проверить на всех кодеках — нет возможности)
Некорректен сам подход: измерение объективных метрик при сжатии звука с потерями.
При сжатии с потерями используются психоакустические модели. В результате получается уже объективно искажённый сигнал, но субъективно искажения не заметны.
При идеальных условиях PSNR покажет снижение уровня сигнала, корреляция тоже будет ниже 1. А субъективное качество — идеальным.
Если объективные метрики показывают результаты, сравнимые с субъективными метриками (с PEAQ), и отражают факт искажения, то почему бы их не использовать.Нет возможности выявить четкую грань, когда искажения становятся субъективно заметны, поэтому мы вынуждены использовать несколько метрик (в т.ч. и те, которые не используют психоакустическую модель).
При сжатии без потерь по значению PSNR кодек попадет в класс I по нашей классификации (коэффициент корреляции будет при этом близок к единице). Этого достаточно, т.к. цель этого ГОСТа — не дать инструмент для попарного сравнения алгоритмов компрессии, а предоставить инструмент постановки кодеку в соответствие определенного класса (из ограниченного множества классов)
можно указать, а можно не указывать, т.к. алгоритмы сжатия без потерь просто попадают в первый класс по результатам расчета метрик для обработанного ими аудио
Мне нравятся такие проекты, однозначно! =)

А если по сути — мне кажется, стоит добавить регламентацию тестовых аудиоданных. Что-нибудь вроде начитанного текста, или, лучше, чего-нибудь из реальной эксплуатации подобных систем. У меня просто был неприятный опыт, когда определённый набор входных данных ломал прекрасно работающий алгоритм. Плюс, если тестировать одинаковыми алгоритмами сравнения разные системы компрессии на разных наборах тестовых данных, результаты будут не вполне определены, как мне кажется. Хотя, может быть, в этом и нет необходимости, я не специалист в этой области.
Надеюсь, конструктивная критика:

"аудиоданные (audio data), аудиопоток (audio stream), аудиосигнал (audio signal), моноканальный аудиосигнал (monophonic audio): аналоговый сигнал, ..."

В одно определение объединены электронное аналоговое и цифровое представление акустической волны (звука). Сигнал — аналоговый, поток — цифровой. Можно, конечно, не различать, если нет такой цели, но этим можно запутать читателя.

"… несущий информацию об изменении во времени амплитуды звука." — и частотного спектра тоже.

Вы не делаете разницы между аудио (audio) в целом и голосом (voice/speech). Применяемые кодеки сильно отличаются и методы оценки качества тоже другие (PESQ вместо PEAQ).

Не используется метрика субъективной оценки акчества передачи Mean Opinion Score (MOS), описанная в ITU P.800. Так нужно или не думали об этом?

В целом сложно дать хороший анализ документа без его контекста.
MOS — оценка, получаемая в ходе субъективных измерений если я правильно помню, а здесь идёт речь об инструментальных методах. PEAQ и PESQ с высокой корреляцией предсказывают эту оценку, но не заменяют её.
Я же не говорю, что вы сделали не верно. Я так и не могу говорить, поскольку не знаю конкретных целей работы. Просто указал точки, которые мне кажется стоит проверить.
Вы перепутали меня с автором. Я же просто отметил, что рассматриваются инструментальные методы.
:) бывает. Критику автор просил, вот я подумал, что кроме него никто и не будет отвечать :)
Надеюсь, конструктивная критика:

«аудиоданные (audio data), аудиопоток (audio stream), аудиосигнал (audio signal), моноканальный аудиосигнал (monophonic audio): аналоговый сигнал, ...»

В одно определение объединены электронное аналоговое и цифровое представление акустической волны (звука). Сигнал — аналоговый, поток — цифровой. Можно, конечно, не различать, если нет такой цели, но этим можно запутать читателя.

"… несущий информацию об изменении во времени амплитуды звука." — и частотного спектра тоже.


да, определения подправим

Вы не делаете разницы между аудио (audio) в целом и голосом (voice/speech). Применяемые кодеки сильно отличаются и методы оценки качества тоже другие (PESQ вместо PEAQ).


аудио — более широкая категория (включающая и речь также) и цель ГОСТа — дать инструмент для классификации именно алгоритмов компрессии аудио

Не используется метрика субъективной оценки акчества передачи Mean Opinion Score (MOS), описанная в ITU P.800. Так нужно или не думали об этом?


думали, но при использовании MOS для оценки качества нового алгоритма компрессии разработчикам ЦСОТ придется собирать группу экспертов, ставить эксперименты и обрабатывать их результаты, что не менее сложно, чем использование PEAQ. Еще не известно, что лучше будет аппроксимировать качество восстановленного аудио — экспертная оценка (для конкретной собранной группы экспертов) или результаты расчета PEAQ.

Спасибо за конструктивную критику!
Картинка от формулы (15) куда-то делась
Sign up to leave a comment.