Как стать автором

NewTechAudit 3 фев 2022 в 12:29

Максимально просто о распознавании речи при помощи NeMo

10 мин

14K

Python*Программирование*Машинное обучение*

+1

Комментарии 5

averkij 3 фев 2022 в 12:47

Для восстановления пунктуации и капитализации у них есть Punctuation and Capitalization model. За основу можно взять любой русский берт с huggingface (например, DeepPavlov/rubert-base-cased или поменьше) и дообучить на русском датасете.

0

NewTechAudit 4 фев 2022 в 07:25

Действительно так, модели энкодеры в этом плане могут отлично дополнить asr, спасибо!

+1

AigizK 3 фев 2022 в 22:01

Я для башкирского языка, имея только 250 часов 860+ человек, используя facebook/wav2vec2-xls-r-300m получил WER=8.5% без LM и WER=4.5% c LM

Так что про самый продвинутый наверное можно поспорить.

+1

Gorodecki 21 фев 2022 в 06:54

На каком железе обучали? Сколько дней?

0

balezz 17 фев 2022 в 20:46

одномерную свертку, пакетную нормализацию, ReLU и отсев

-> Conv1D, BatchNormalization, ReLU, Dropout?

0

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время