Комментарии 8
на спектрограмме по вертикали идёт частота.
При препроцессинге можно сжать (compressor) диапазон голоса в 48дб (с отсечкой снизу — gate), это даст:
— меньше шума
— 8 вменяемых бит на амплитуду
— 8 бит на фазу для ДФТ(ДФТ — чтобы не терять фазу; а зачем терять, если можно не терять). Кодируете в цвет — получаете больше инфы для нейросети — вырастает качество распознавания.Не благодарите.
При препроцессинге можно сжать (compressor) диапазон голоса в 48дб (с отсечкой снизу — gate), это даст:
— меньше шума
— 8 вменяемых бит на амплитуду
— 8 бит на фазу для ДФТ(ДФТ — чтобы не терять фазу; а зачем терять, если можно не терять). Кодируете в цвет — получаете больше инфы для нейросети — вырастает качество распознавания.
И как же с этой паршивой точностью:
Вы планируете опознать по половине слова?
Для какого применения? Может сразу доступ к банковской ячейке по телефону?;)
точность классификации достигла 55%. Казалось бы, не очень много, но точность top-5 составляет 78%, а если мы рассмотрим только самую громкую половину фрагментов, а это в основном ударные гласные, то точность top-5 вырастет до 91%.
Вы планируете опознать по половине слова?
Для какого применения? Может сразу доступ к банковской ячейке по телефону?;)
Ключиком к решению этой проблемы является преобразование Фурье. С помощью него можно представить звуковой сигнал как сумму волн с разными частотами и амплитудами. На самом деле речь не стационарна в том смысле, что ее спектр будет качественно разным в разные моменты времени.Может эффективнее использовать вэйвлет-преоборазование?
Нет, для аудио FFT значительно эффективнее.
Wavelet Sound Explorer
Wavelet Sound Explorer
Why hasn't this been done before? The main reason is because it takes a LOT of space to store the sound. A 5 minute mp3 file recorded at 44100 samples per second will contain 13230000 samples. In the frequency domain, each complex sample takes 8 bytes. So each frequency band (line in the image) that you are interested in would take about 100MB. The resulting wavelet transform would take up 218 GB.
Голос же легко подделать.
На Хабре уже была статья в прошлом году:
Создана первая технология для подделки любых голосов
На Хабре уже была статья в прошлом году:
Создана первая технология для подделки любых голосов
Пробовали ли вы обучать и использовать i-векторы?
Трудно верить без конкретного кода и модели, которую можно скачать. Нам самим догадываться как вы это сделали? Или просто — не верить?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Вы еще не договорили слово “привет”, а мы уже знаем, кто вы