Комментарии 5
Для восстановления пунктуации и капитализации у них есть Punctuation and Capitalization model. За основу можно взять любой русский берт с huggingface (например, DeepPavlov/rubert-base-cased или поменьше) и дообучить на русском датасете.
Я для башкирского языка, имея только 250 часов 860+ человек, используя facebook/wav2vec2-xls-r-300m получил WER=8.5% без LM и WER=4.5% c LM
Так что про самый продвинутый наверное можно поспорить.
одномерную свертку, пакетную нормализацию, ReLU и отсев
-> Conv1D, BatchNormalization, ReLU, Dropout?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Максимально просто о распознавании речи при помощи NeMo