Comments 11
Я правильно понял термины:
у гугла был WER=0.92,
а если все слова распознать как "вагон", то был бы WER=0.85 ?
Спасибо, мир заиграл новыми красками!
Да, но Google такое выдавал на модели, которая из разряда совсем не приспособлена к акустики рации. У того же ЦРТ результат был лучше, но все равно общая модель не позволяла хорошо распознать настолько специфический домен. И 0,85 будет, если распознавать "вагон" без пропусков слов, а большая часть ошибки как раз заключалась в том, что в сильном шуме на всех решениях были огромные пропуски.
А шумы (радиопомехи) были ±одинаковые? Имею в виду частотную полосу "шипения", громкость относительно речи и пр.
Там было 2 типа записи - аналог и цифровой, на них было по разному. Плюс несколько станций - на них были отличия в акустике не стороне диспетчера. На аналоге как раз получилось лучше всего вычистить шумы (цифры как раз для него), на "цифре" было чуть хуже. А по распределению - там шумы как от самих раций, так и окружающий шум был, но от раций в похожем частотном диапазоне, который к сожалению, частично перекрывал диапазон в котором была сама речь.
Пожалуй, разметить датасет едва ли не сложнее, чем подобрать способ успешной работы с ним.
у вас свой движок по распознаванию речи? Мы производим аудиобейджи Свидетель и диктофоны Edic-mini - нам бы было бы интересно с вами посотрудничать.
Как только люди нейронки не мучают, только бы рации нормальные не покупать...(шутка, с долей шутки).
С Хорошей рацией и машинисту хорошо (вагон с прогоном и перегоном не перепутает).
А вообще интересно.
Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли