astkristina Sep 7 2018 at 18:21

Вы еще не договорили слово “привет”, а мы уже знаем, кто вы

5 min

12K

Neurodata Lab corporate blogAlgorithms*Machine learning*Popular scienceSound

+22

Comments 8

basilbasilbasil Sep 7 2018 at 18:37

на спектрограмме по вертикали идёт частота.

При препроцессинге можно сжать (compressor) диапазон голоса в 48дб (с отсечкой снизу — gate), это даст:
— меньше шума
— 8 вменяемых бит на амплитуду
— 8 бит на фазу для ДФТ(ДФТ — чтобы не терять фазу; а зачем терять, если можно не терять). Кодируете в цвет — получаете больше инфы для нейросети — вырастает качество распознавания. ~~Не благодарите.~~

ZlodeiBaal Sep 8 2018 at 12:15

И как же с этой паршивой точностью:

точность классификации достигла 55%. Казалось бы, не очень много, но точность top-5 составляет 78%, а если мы рассмотрим только самую громкую половину фрагментов, а это в основном ударные гласные, то точность top-5 вырастет до 91%.

Вы планируете опознать по половине слова?
Для какого применения? Может сразу доступ к банковской ячейке по телефону?;)

phenik Sep 8 2018 at 14:27

Ключиком к решению этой проблемы является преобразование Фурье. С помощью него можно представить звуковой сигнал как сумму волн с разными частотами и амплитудами. На самом деле речь не стационарна в том смысле, что ее спектр будет качественно разным в разные моменты времени.

Может эффективнее использовать вэйвлет-преоборазование?

ValdikSS Sep 8 2018 at 15:36

Нет, для аудио FFT значительно эффективнее.

Wavelet Sound Explorer

Why hasn't this been done before? The main reason is because it takes a LOT of space to store the sound. A 5 minute mp3 file recorded at 44100 samples per second will contain 13230000 samples. In the frequency domain, each complex sample takes 8 bytes. So each frequency band (line in the image) that you are interested in would take about 100MB. The resulting wavelet transform would take up 218 GB.

Mobile1 Sep 8 2018 at 16:39

Голос же легко подделать.
На Хабре уже была статья в прошлом году:

Создана первая технология для подделки любых голосов

terixoid Sep 10 2018 at 12:23

Пробовали ли вы обучать и использовать i-векторы?

astkristina Sep 10 2018 at 13:02

Добрый день,

i-векторы не использовали — они не содержат информацию о том, что и как человек говорит, а только о том, кто говорит. Все затевалось для того, чтобы сделать хороший генератор фичей.

Vinchi Sep 12 2018 at 01:54

Трудно верить без конкретного кода и модели, которую можно скачать. Нам самим догадываться как вы это сделали? Или просто — не верить?