Все потоки

NewTechAudit3 фев 2022 в 09:29

Максимально просто о распознавании речи при помощи NeMo

10 мин

25K

Python * Программирование * Машинное обучение *

+1

Комментарии 5

averkij 3 фев 2022 в 09:47

Для восстановления пунктуации и капитализации у них есть Punctuation and Capitalization model. За основу можно взять любой русский берт с huggingface (например, DeepPavlov/rubert-base-cased или поменьше) и дообучить на русском датасете.

NewTechAudit 4 фев 2022 в 04:25

Действительно так, модели энкодеры в этом плане могут отлично дополнить asr, спасибо!

AigizK 3 фев 2022 в 19:01

Я для башкирского языка, имея только 250 часов 860+ человек, используя facebook/wav2vec2-xls-r-300m получил WER=8.5% без LM и WER=4.5% c LM

Так что про самый продвинутый наверное можно поспорить.

Gorodecki 21 фев 2022 в 03:54

На каком железе обучали? Сколько дней?

balezz 17 фев 2022 в 17:46

одномерную свертку, пакетную нормализацию, ReLU и отсев

-> Conv1D, BatchNormalization, ReLU, Dropout?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий