stanislav_as 5 окт 2021 в 11:00

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

8 мин

12K

Блог компании НаносемантикаМашинное обучение*Искусственный интеллектЗвукГолосовые интерфейсы*

Комментарии 9

Kelv13 6 окт 2021 в 17:52

Азур, он же azure произносится, как эже, или эжэ, или эйжэ в зависимости от произношения носителя языка.

al-zatv 6 окт 2021 в 20:50

Спасибо за статью. Не совсем понял,сколько часов речи в тесте (есть количество записей, но записи же бывают разной длины).

А вот про удаления записей, на которые какой-то движок отдаёт пустой ответ -- мне кажется, это несправедливо:) Пустой ответ это тоже ответ. Пользователь будет полагаться на него. Для записи с тишиной это даже правильный ответ.

На мой взгляд, 1) в тесте должны быть записи с тишиной 2) если движок отдал пустоту или упал, то это 0 слов и их надо использовать в вычислении WER.

sxdxfan 6 окт 2021 в 21:27

Добрый вечер!

Общая продолжительность датасета - 2 часа 42 минуты, короткие записи длятся порядка 1-3 секунд, средние - 4-6 секунд, длинные - 7-10 секунд. Каждая фраза является некоторой законченной репликой. По количеству записей и произнесённых слов в каждой реплике вы можете ориентироваться по заголовкам табличек.

sxdxfan 6 окт 2021 в 21:32

По поводу удаления записей из общего сравнения - разработчики специально привели два исследования, в первом как раз учитывались пустые ответы как 0 слов, и WER автоматически приравнивался к 100 на таких записях.

Естественно, такой вклад сильно портит статистику для некоторых систем распознавания речи, второе исследование приведено с целью сравнить системы без этого вклада.

intersolar 11 окт 2021 в 01:38

очень крутое исследование, спасибо! Хотел что-то похожее сам написать, так как не нашёл летом свежих сравнений, но всё руки не доходили. Да и уровень тестирования был бы попроще.

Ждем теперь тестирования TTS)

iingvaar 2 дек 2021 в 01:49

Возможно я не увидел, но есть ли примеры распознанных текстов? Совсем не удивлен высокому результату Тинькова - из известных мне движков только он умеет делить речь на предложения, и даже расставлять запятые.

tonyzorin 9 фев 2022 в 14:15

А как дела у VK Cloud Voice?

stanislav_as 15 апр 2022 в 10:59

Да как-то мы не дошли до их тестирования.

dangrebenkin 3 ноя 2022 в 09:44

Спасибо за интересное сравнение) После прочтения у меня возникло два вопроса:
1) а что подразумевалось под моделью alpha_cephei? Насколько мне известно, AlphaCephei - это компания, которая создала систему VOSK и различные модели распознавания речи для разных языков (https://alphacephei.com/vosk/models). Если под "vosk" подразумевалась скорее всего vosk-model-ru-0.22, то что такое "alpha_cephei"?
2) будете ли вы выкладывать ваш тестовый датасет на какой-нибудь удобный открытый ресурс типа huggingface? Было бы интересно потестировать модели типа wav2vec2 на нем и подумать над результатами)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий