Фиксированный случайный stratified сэмпл вполне сошёл бы за такой бенчмарк, до тех пор пока не найдётся каких-то проблем в нём (самая легко проверяемая — одинаковые предложения в training и testing). Если не сложно, могли бы вы выложить список реплик и результат (WER или CER) на них? Мне бы хоть что-то для сравнения, если соберусь экспериментировать :)
Большое спасибо за публикацию! Думали ли вы о выделении некоторых частей датасета специально для валидации/тестирования? Добавляя или меняя данные в датасете, желательно иметь возможность сделать бенчмарк и увидеть эффект от изменений.
Спасибо за статью! Если не секрет, почему было решено написать собственный HMM-декодер, а не использовать один из уже существующих (к примеру, из Kaldi)?
Была такая попытка: https://en.wikipedia.org/wiki/OTRAG
github.com/laboroai/LaboroTVSpeech
github.com/espnet/espnet/blob/master/egs/ru_open_stt/asr1/RESULTS.md