Как стать автором
Обновить

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

Время на прочтение8 мин
Количество просмотров12K
Всего голосов 19: ↑10 и ↓9+5
Комментарии9

Комментарии 9

Азур, он же azure произносится, как эже, или эжэ, или эйжэ в зависимости от произношения носителя языка.

Спасибо за статью. Не совсем понял,сколько часов речи в тесте (есть количество записей, но записи же бывают разной длины).

А вот про удаления записей, на которые какой-то движок отдаёт пустой ответ -- мне кажется, это несправедливо:) Пустой ответ это тоже ответ. Пользователь будет полагаться на него. Для записи с тишиной это даже правильный ответ.

На мой взгляд, 1) в тесте должны быть записи с тишиной 2) если движок отдал пустоту или упал, то это 0 слов и их надо использовать в вычислении WER.

Добрый вечер!

Общая продолжительность датасета - 2 часа 42 минуты, короткие записи длятся порядка 1-3 секунд, средние - 4-6 секунд, длинные - 7-10 секунд. Каждая фраза является некоторой законченной репликой. По количеству записей и произнесённых слов в каждой реплике вы можете ориентироваться по заголовкам табличек.

По поводу удаления записей из общего сравнения - разработчики специально привели два исследования, в первом как раз учитывались пустые ответы как 0 слов, и WER автоматически приравнивался к 100 на таких записях.

Естественно, такой вклад сильно портит статистику для некоторых систем распознавания речи, второе исследование приведено с целью сравнить системы без этого вклада.

очень крутое исследование, спасибо! Хотел что-то похожее сам написать, так как не нашёл летом свежих сравнений, но всё руки не доходили. Да и уровень тестирования был бы попроще.

Ждем теперь тестирования TTS)

Возможно я не увидел, но есть ли примеры распознанных текстов? Совсем не удивлен высокому результату Тинькова - из известных мне движков только он умеет делить речь на предложения, и даже расставлять запятые.

Да как-то мы не дошли до их тестирования.

Спасибо за интересное сравнение) После прочтения у меня возникло два вопроса:
1) а что подразумевалось под моделью alpha_cephei? Насколько мне известно, AlphaCephei - это компания, которая создала систему VOSK и различные модели распознавания речи для разных языков (https://alphacephei.com/vosk/models). Если под "vosk" подразумевалась скорее всего vosk-model-ru-0.22, то что такое "alpha_cephei"?
2) будете ли вы выкладывать ваш тестовый датасет на какой-нибудь удобный открытый ресурс типа huggingface? Было бы интересно потестировать модели типа wav2vec2 на нем и подумать над результатами)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий