Комментарии 9
Азур, он же azure произносится, как эже, или эжэ, или эйжэ в зависимости от произношения носителя языка.
Спасибо за статью. Не совсем понял,сколько часов речи в тесте (есть количество записей, но записи же бывают разной длины).
А вот про удаления записей, на которые какой-то движок отдаёт пустой ответ -- мне кажется, это несправедливо:) Пустой ответ это тоже ответ. Пользователь будет полагаться на него. Для записи с тишиной это даже правильный ответ.
На мой взгляд, 1) в тесте должны быть записи с тишиной 2) если движок отдал пустоту или упал, то это 0 слов и их надо использовать в вычислении WER.
Добрый вечер!
Общая продолжительность датасета - 2 часа 42 минуты, короткие записи длятся порядка 1-3 секунд, средние - 4-6 секунд, длинные - 7-10 секунд. Каждая фраза является некоторой законченной репликой. По количеству записей и произнесённых слов в каждой реплике вы можете ориентироваться по заголовкам табличек.
По поводу удаления записей из общего сравнения - разработчики специально привели два исследования, в первом как раз учитывались пустые ответы как 0 слов, и WER автоматически приравнивался к 100 на таких записях.
Естественно, такой вклад сильно портит статистику для некоторых систем распознавания речи, второе исследование приведено с целью сравнить системы без этого вклада.
очень крутое исследование, спасибо! Хотел что-то похожее сам написать, так как не нашёл летом свежих сравнений, но всё руки не доходили. Да и уровень тестирования был бы попроще.
Ждем теперь тестирования TTS)
Возможно я не увидел, но есть ли примеры распознанных текстов? Совсем не удивлен высокому результату Тинькова - из известных мне движков только он умеет делить речь на предложения, и даже расставлять запятые.
А как дела у VK Cloud Voice?
Спасибо за интересное сравнение) После прочтения у меня возникло два вопроса:
1) а что подразумевалось под моделью alpha_cephei? Насколько мне известно, AlphaCephei - это компания, которая создала систему VOSK и различные модели распознавания речи для разных языков (https://alphacephei.com/vosk/models). Если под "vosk" подразумевалась скорее всего vosk-model-ru-0.22, то что такое "alpha_cephei"?
2) будете ли вы выкладывать ваш тестовый датасет на какой-нибудь удобный открытый ресурс типа huggingface? Было бы интересно потестировать модели типа wav2vec2 на нем и подумать над результатами)
Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др