Search
Write a publication
Pull to refresh

Comments 11

Я правильно понял термины:
у гугла был WER=0.92,
а если все слова распознать как "вагон", то был бы WER=0.85 ?

Спасибо, мир заиграл новыми красками!

Да, но Google такое выдавал на модели, которая из разряда совсем не приспособлена к акустики рации. У того же ЦРТ результат был лучше, но все равно общая модель не позволяла хорошо распознать настолько специфический домен. И 0,85 будет, если распознавать "вагон" без пропусков слов, а большая часть ошибки как раз заключалась в том, что в сильном шуме на всех решениях были огромные пропуски.

К слову у ряда вендоров есть специальные отраслевые решения, которые дают приемлемые цифры в таких акустических условиях, правда их нет в открытом доступе.

А шумы (радиопомехи) были ±одинаковые? Имею в виду частотную полосу "шипения", громкость относительно речи и пр.

Там было 2 типа записи - аналог и цифровой, на них было по разному. Плюс несколько станций - на них были отличия в акустике не стороне диспетчера. На аналоге как раз получилось лучше всего вычистить шумы (цифры как раз для него), на "цифре" было чуть хуже. А по распределению - там шумы как от самих раций, так и окружающий шум был, но от раций в похожем частотном диапазоне, который к сожалению, частично перекрывал диапазон в котором была сама речь.

Каким образом шумы вычищали? Есть нормальные готовые библиотеки, или своё что-то изобретали?

Помимо стандартного, что стояло ранее - посмотрели по спектрограмме, на какие частоты приходятся шумы и применили простой самописный фильтр, чтобы "вычистить" эти частоты, там, где это было возможно.

Пожалуй, разметить датасет едва ли не сложнее, чем подобрать способ успешной работы с ним.

Соглашусь, нужна очень хорошая разметка, и если "чистые" записи размечать относительно просто (на час записи тратится 3-4 часа работы разметчика), то для этих пришлось тратить очень много времени, несколько раз их переслушивать и делать тройное перекрытие между разметчиками.

у вас свой движок по распознаванию речи? Мы производим аудиобейджи Свидетель и диктофоны Edic-mini - нам бы было бы интересно с вами посотрудничать.

Как только люди нейронки не мучают, только бы рации нормальные не покупать...(шутка, с долей шутки).

С Хорошей рацией и машинисту хорошо (вагон с прогоном и перегоном не перепутает).

А вообще интересно.

Sign up to leave a comment.