Search
Write a publication
Pull to refresh
0
0
Send message
Можете попробовать ESPnet. Я недавно добавил модель для русского:

github.com/espnet/espnet/blob/master/egs/ru_open_stt/asr1/RESULTS.md
Могу помочь с кодированием и сидированием, если ещё нужно.
Фиксированный случайный stratified сэмпл вполне сошёл бы за такой бенчмарк, до тех пор пока не найдётся каких-то проблем в нём (самая легко проверяемая — одинаковые предложения в training и testing). Если не сложно, могли бы вы выложить список реплик и результат (WER или CER) на них? Мне бы хоть что-то для сравнения, если соберусь экспериментировать :)
Большое спасибо за публикацию! Думали ли вы о выделении некоторых частей датасета специально для валидации/тестирования? Добавляя или меняя данные в датасете, желательно иметь возможность сделать бенчмарк и увидеть эффект от изменений.
Спасибо за статью! Если не секрет, почему было решено написать собственный HMM-декодер, а не использовать один из уже существующих (к примеру, из Kaldi)?
Не за горами CentOS 7, есть ли планы насчёт него?

Information

Rating
Does not participate
Registered
Activity