Pull to refresh

Comments 2

GMM-UBM это технология из прошлого века. Сейчас всё на x-векторах делают, в Kaldi реализация правильная:

github.com/kaldi-asr/kaldi/tree/master/egs/callhome_diarization/v2

Описание алгоритма

www.danielpovey.com/files/2017_icassp_diarization_embeddings.pdf

Модель натренированная:

kaldi-asr.org/models/m6
x-vector — это DNN, которая требует наличия размеченных данных, о чем авторы статьи собственно говорят в аннотации и используют дополнение данных с помощью реверберации и шума. И даже, когда есть уже натрененная модель, не факт, что она будет хорошо работать на ваших данных. GMM-UBM в свою очередь не требует разметки, и даже в статье по ссылке, где она используется в качестве бейзлайна показывает сравнимые результаты.
Но в целом, конечно, Вы абсолютно правы — основные прорывы сейчас делают с помощью нейросетей. Пожалуй, вопрос только в данных.
Sign up to leave a comment.

Articles