Comments 8
на спектрограмме по вертикали идёт частота.
При препроцессинге можно сжать (compressor) диапазон голоса в 48дб (с отсечкой снизу — gate), это даст:
— меньше шума
— 8 вменяемых бит на амплитуду
— 8 бит на фазу для ДФТ(ДФТ — чтобы не терять фазу; а зачем терять, если можно не терять). Кодируете в цвет — получаете больше инфы для нейросети — вырастает качество распознавания.Не благодарите.
При препроцессинге можно сжать (compressor) диапазон голоса в 48дб (с отсечкой снизу — gate), это даст:
— меньше шума
— 8 вменяемых бит на амплитуду
— 8 бит на фазу для ДФТ(ДФТ — чтобы не терять фазу; а зачем терять, если можно не терять). Кодируете в цвет — получаете больше инфы для нейросети — вырастает качество распознавания.
+1
И как же с этой паршивой точностью:
Вы планируете опознать по половине слова?
Для какого применения? Может сразу доступ к банковской ячейке по телефону?;)
точность классификации достигла 55%. Казалось бы, не очень много, но точность top-5 составляет 78%, а если мы рассмотрим только самую громкую половину фрагментов, а это в основном ударные гласные, то точность top-5 вырастет до 91%.
Вы планируете опознать по половине слова?
Для какого применения? Может сразу доступ к банковской ячейке по телефону?;)
+1
Ключиком к решению этой проблемы является преобразование Фурье. С помощью него можно представить звуковой сигнал как сумму волн с разными частотами и амплитудами. На самом деле речь не стационарна в том смысле, что ее спектр будет качественно разным в разные моменты времени.Может эффективнее использовать вэйвлет-преоборазование?
+1
Нет, для аудио FFT значительно эффективнее.
Wavelet Sound Explorer
Wavelet Sound Explorer
Why hasn't this been done before? The main reason is because it takes a LOT of space to store the sound. A 5 minute mp3 file recorded at 44100 samples per second will contain 13230000 samples. In the frequency domain, each complex sample takes 8 bytes. So each frequency band (line in the image) that you are interested in would take about 100MB. The resulting wavelet transform would take up 218 GB.
+1
Голос же легко подделать.
На Хабре уже была статья в прошлом году:
Создана первая технология для подделки любых голосов
На Хабре уже была статья в прошлом году:
Создана первая технология для подделки любых голосов
0
Пробовали ли вы обучать и использовать i-векторы?
0
Трудно верить без конкретного кода и модели, которую можно скачать. Нам самим догадываться как вы это сделали? Или просто — не верить?
0
Sign up to leave a comment.
Вы еще не договорили слово “привет”, а мы уже знаем, кто вы