Как стать автором
Обновить

Комментарии 5

Для восстановления пунктуации и капитализации у них есть Punctuation and Capitalization model. За основу можно взять любой русский берт с huggingface (например, DeepPavlov/rubert-base-cased или поменьше) и дообучить на русском датасете.

Действительно так, модели энкодеры в этом плане могут отлично дополнить asr,  спасибо!

Я для башкирского языка, имея только 250 часов 860+ человек, используя facebook/wav2vec2-xls-r-300m получил WER=8.5% без LM и WER=4.5% c LM

Так что про самый продвинутый наверное можно поспорить.

На каком железе обучали? Сколько дней?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации