Amvera_Speech Oct 10 2022 at 16:43

Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли

3 min

3.7K

Amvera corporate blogSemantics*Programming*Machine learning*Reading room

+15

Comments 11

propell-ant Oct 10 2022 at 16:57

Я правильно понял термины:
у гугла был WER=0.92,
а если все слова распознать как "вагон", то был бы WER=0.85 ?

Спасибо, мир заиграл новыми красками!

Amvera_Speech Oct 10 2022 at 17:00

Да, но Google такое выдавал на модели, которая из разряда совсем не приспособлена к акустики рации. У того же ЦРТ результат был лучше, но все равно общая модель не позволяла хорошо распознать настолько специфический домен. И 0,85 будет, если распознавать "вагон" без пропусков слов, а большая часть ошибки как раз заключалась в том, что в сильном шуме на всех решениях были огромные пропуски.

kirillkosolapov Oct 10 2022 at 17:09

К слову у ряда вендоров есть специальные отраслевые решения, которые дают приемлемые цифры в таких акустических условиях, правда их нет в открытом доступе.

Markscheider Oct 10 2022 at 18:01

А шумы (радиопомехи) были ±одинаковые? Имею в виду частотную полосу "шипения", громкость относительно речи и пр.

Amvera_Speech Oct 10 2022 at 18:21

Там было 2 типа записи - аналог и цифровой, на них было по разному. Плюс несколько станций - на них были отличия в акустике не стороне диспетчера. На аналоге как раз получилось лучше всего вычистить шумы (цифры как раз для него), на "цифре" было чуть хуже. А по распределению - там шумы как от самих раций, так и окружающий шум был, но от раций в похожем частотном диапазоне, который к сожалению, частично перекрывал диапазон в котором была сама речь.

sukhe Oct 11 2022 at 16:51

Каким образом шумы вычищали? Есть нормальные готовые библиотеки, или своё что-то изобретали?

Amvera_Speech Oct 11 2022 at 17:27

Помимо стандартного, что стояло ранее - посмотрели по спектрограмме, на какие частоты приходятся шумы и применили простой самописный фильтр, чтобы "вычистить" эти частоты, там, где это было возможно.

Rive Oct 10 2022 at 18:44

Пожалуй, разметить датасет едва ли не сложнее, чем подобрать способ успешной работы с ним.

Amvera_Speech Oct 10 2022 at 18:50

Соглашусь, нужна очень хорошая разметка, и если "чистые" записи размечать относительно просто (на час записи тратится 3-4 часа работы разметчика), то для этих пришлось тратить очень много времени, несколько раз их переслушивать и делать тройное перекрытие между разметчиками.

555www555 Oct 10 2022 at 21:55

у вас свой движок по распознаванию речи? Мы производим аудиобейджи Свидетель и диктофоны Edic-mini - нам бы было бы интересно с вами посотрудничать.

YDR Oct 11 2022 at 12:10

Как только люди нейронки не мучают, только бы рации нормальные не покупать...(шутка, с долей шутки).

С Хорошей рацией и машинисту хорошо (вагон с прогоном и перегоном не перепутает).

А вообще интересно.