Как стать автором
Обновить

Комментарии 8

на спектрограмме по вертикали идёт частота.

При препроцессинге можно сжать (compressor) диапазон голоса в 48дб (с отсечкой снизу — gate), это даст:
— меньше шума
— 8 вменяемых бит на амплитуду
— 8 бит на фазу для ДФТ(ДФТ — чтобы не терять фазу; а зачем терять, если можно не терять). Кодируете в цвет — получаете больше инфы для нейросети — вырастает качество распознавания. Не благодарите.
И как же с этой паршивой точностью:
точность классификации достигла 55%. Казалось бы, не очень много, но точность top-5 составляет 78%, а если мы рассмотрим только самую громкую половину фрагментов, а это в основном ударные гласные, то точность top-5 вырастет до 91%.

Вы планируете опознать по половине слова?
Для какого применения? Может сразу доступ к банковской ячейке по телефону?;)
Ключиком к решению этой проблемы является преобразование Фурье. С помощью него можно представить звуковой сигнал как сумму волн с разными частотами и амплитудами. На самом деле речь не стационарна в том смысле, что ее спектр будет качественно разным в разные моменты времени.
Может эффективнее использовать вэйвлет-преоборазование?
Нет, для аудио FFT значительно эффективнее.

Wavelet Sound Explorer
Why hasn't this been done before? The main reason is because it takes a LOT of space to store the sound. A 5 minute mp3 file recorded at 44100 samples per second will contain 13230000 samples. In the frequency domain, each complex sample takes 8 bytes. So each frequency band (line in the image) that you are interested in would take about 100MB. The resulting wavelet transform would take up 218 GB.

Пробовали ли вы обучать и использовать i-векторы?

Добрый день,

i-векторы не использовали — они не содержат информацию о том, что и как человек говорит, а только о том, кто говорит. Все затевалось для того, чтобы сделать хороший генератор фичей.
Трудно верить без конкретного кода и модели, которую можно скачать. Нам самим догадываться как вы это сделали? Или просто — не верить?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий