astkristina 7 сен 2018 в 15:21

Вы еще не договорили слово “привет”, а мы уже знаем, кто вы

5 мин

13K

Блог компании Neurodata LabАлгоритмы*ЗвукМашинное обучение*Научно-популярное

+22

Комментарии 8

basilbasilbasil 7 сен 2018 в 15:37

на спектрограмме по вертикали идёт частота.

При препроцессинге можно сжать (compressor) диапазон голоса в 48дб (с отсечкой снизу — gate), это даст:
— меньше шума
— 8 вменяемых бит на амплитуду
— 8 бит на фазу для ДФТ(ДФТ — чтобы не терять фазу; а зачем терять, если можно не терять). Кодируете в цвет — получаете больше инфы для нейросети — вырастает качество распознавания. ~~Не благодарите.~~

ZlodeiBaal 8 сен 2018 в 09:15

И как же с этой паршивой точностью:

точность классификации достигла 55%. Казалось бы, не очень много, но точность top-5 составляет 78%, а если мы рассмотрим только самую громкую половину фрагментов, а это в основном ударные гласные, то точность top-5 вырастет до 91%.

Вы планируете опознать по половине слова?
Для какого применения? Может сразу доступ к банковской ячейке по телефону?;)

phenik 8 сен 2018 в 11:27

Ключиком к решению этой проблемы является преобразование Фурье. С помощью него можно представить звуковой сигнал как сумму волн с разными частотами и амплитудами. На самом деле речь не стационарна в том смысле, что ее спектр будет качественно разным в разные моменты времени.

Может эффективнее использовать вэйвлет-преоборазование?

ValdikSS 8 сен 2018 в 12:36

Нет, для аудио FFT значительно эффективнее.

Wavelet Sound Explorer

Why hasn't this been done before? The main reason is because it takes a LOT of space to store the sound. A 5 minute mp3 file recorded at 44100 samples per second will contain 13230000 samples. In the frequency domain, each complex sample takes 8 bytes. So each frequency band (line in the image) that you are interested in would take about 100MB. The resulting wavelet transform would take up 218 GB.

Mobile1 8 сен 2018 в 13:39

Голос же легко подделать.
На Хабре уже была статья в прошлом году:

Создана первая технология для подделки любых голосов

terixoid 10 сен 2018 в 09:23

Пробовали ли вы обучать и использовать i-векторы?

astkristina 10 сен 2018 в 10:02

Добрый день,

i-векторы не использовали — они не содержат информацию о том, что и как человек говорит, а только о том, кто говорит. Все затевалось для того, чтобы сделать хороший генератор фичей.

Vinchi 11 сен 2018 в 22:54

Трудно верить без конкретного кода и модели, которую можно скачать. Нам самим догадываться как вы это сделали? Или просто — не верить?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий