Как стать автором
Обновить
97.83
SimbirSoft
Лидер в разработке современных ИТ-решений на заказ

Быстрее, выше, сильнее в распознавании речи: SpeechKit, SaluteSpeech или SpeechFlow?

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров914

Меня зовут Екатерина, я IT-архитектор в ML-команде SimbirSoft, специализируюсь на темах по обработке естественного языка. Сегодня мы обсудим особенности решения задач распознавания речи. Проверим наши предположения на собственных аудиоданных, которые будем переводить из акустического сигнала в текст тремя передовыми коммерческими системами: Yandex SpeechKit, SaluteSpeech от Сбера и SpeechFlow от Bluepulse. Статья будет полезна тем, кто интересуется тенденциями развития машинного обучения или хочет присмотреться к возможностям и уязвимым местам существующих решений для их внедрения в бизнес-приложения.

Распознавание речи в бизнес-задачах

По данным Fortune Business Insights, востребованность инструментов для распознавания речи — speech-to-text (STT) или Automated Speech Recognition (ASR) на мировом рынке, включая Россию, в ближайшие 10 лет будет стабильно возрастать с ожидаемым совокупным среднегодовым темпом роста в 23,7%. В 2023 году больше половины рынка STT пришлось на сферы медицинских услуг, IT и телекоммуникации, автомобильной промышленности и финансового сектора (см. рис. 1).

К нам тоже нередко приходят задачи, связанные с распознаванием речи. Популярные запросы заказчиков можно разделить на два основных типа: задачи на взаимодействие с голосовым помощником и задачи на автоматическую транскрипцию текстов. 

Рисунок 1. Использование STT-технологий по оценкам Fortune Business Insights
Рисунок 1. Использование STT-технологий по оценкам Fortune Business Insights

Общение с голосовым помощником

Общение с помощником обычно предполагает аудиоверсию чат-бота: распознавание слов говорящего и ведение клиента по сценарию. Например, пользователь звонит на горячую линию банка, а аудиопомощник задает вопросы, чтобы перенаправить его к нужному специалисту. Под капотом обычно такая система имеет две модели: быструю и легкую модель распознавания речи, которая переводит акустический сигнал в текст в неоптимальном качестве, и модель классификации запроса, которая находит наиболее вероятное соответствие из фиксированной базы тем. В качестве модели распознавания можно использовать, например, модели Conformer-Transducer Large или FastConformer-Hybrid Large от NVIDIA. Обе выдают неплохое качество предсказаний в обзорах открытых решений 2023 и 2024 годов и превосходят другие открытые решения по скорости (скорость автор замерял только для первой модели, однако последняя по данным NVIDIA еще быстрее). Также можно попробовать и другие открытые модели для распознавания русского языка, доступные на Hugging Face.  

Автоматическая транскрипция потока речи

Технически значительно более сложной является задача автоматической транскрипции текстов, поскольку система должна не просто «улавливать основную мысль» сообщения, а верно фиксировать все ее структурные элементы. Любая неточность, даже неверная форма слова, будет считаться ошибкой системы. Наиболее популярным примером продуктовой задачи автоматической транскрипции является расшифровка записей с одним, двумя или несколькими говорящими: например, устное обращение клиента, диалог клиента и менеджера и общение в формате круглого стола. 

Архитектурно система включает три компонента: 

1) акустическую модель, которая определяет вероятные кусочки слов из звукового сигнала (многие могут быть ошибочными); 

2) языковую модель, которая обрабатывает выход из акустической модели, генерируя текст по словам; 

3) сервис форматирования текста, который отвечает за расстановку знаков препинания и прочее.

Сегодня мы сконцентрируемся именно на задаче транскрипции потока речи, чтобы посмотреть, насколько успешно передовые STT-системы распознают русскую речь в различных реалистичных сценариях использования.

Эксперимент

Наш эксперимент состоял в распознавании коротких аудиозаписей тремя системами: SpeechKit, SaluteSpeech и SpeechFlow. При этом интересовала чувствительность выбранных систем к двум факторам помех: к темпу речи и к наличию фонового шума.

Данные

Я решила использовать не открытые наборы данных, которые модели знают вдоль и поперек, и которые слабо сбалансированы по сложности и длине, а небольшой набор собственных естественных и синтезированных аудиозаписей — озвучек коротких текстов. Для эксперимента отобрала 15 фрагментов: по 5 отрывков газетного жанра, художественной и научной литературы. Отрывки я подбирала так, чтобы они были примерно одинаковые по длине (см. таблицу 1) и состояли из законченных предложений.

Таблица 1. Количественные характеристики выбранных текстов.

Жанр

Среднее количество слов (сред. кв. отклонение)

Среднее количество символов (сред. кв. отклонение)

Газетный

63.8 (5.1)

443.2 (14.1)

Научный

64.0 (2.5)

533.2 (36.2)

Художественный

61.8 (1.1)

394.4 (40.2)

Синтезированные данные нужны были для того, чтобы оценить возможности систем в «стерильных условиях», когда отсутствует фоновый шум и индивидуальные особенности начитки. Естественные данные имитируют реальные условия использования систем по назначению: когда человек звонит в клиентскую службу, некоторые говорят менее четко, некоторые достаточно быстро, кроме того, всегда присутствует фоновый шум.

1. Синтезированные данные

Аудиозаписи мы получили с помощью SaluteSpeech (голос «Натальи»). Преимуществ решению Сбера по сравнению с остальными STT системами в базовых экспериментах это не давало, поэтому я не стала синтезировать данные несколькими системами для балансировки. Оригинальные синтезированные данные мы ускорили в 1.5 и в 2 раза для оценки чувствительности систем к быстрому темпу речи. Ускорение делали с помощью онлайн-сервиса MP3Cutter.

2. Естественные данные

Аудио фиксировалось с помощью приложения «Запись голоса» в Windows 10 на микрофон проводной гарнитуры Apple. Эти данные далее были модифицированы ускорением в 1.5 и в 2 раза сервисом MP3Cutter, также на них был наложен белый шум с помощью программы Audacity.

Сводная таблица 2 иллюстрирует все экспериментальные условия с синтезированными и естественными данными.

Таблица 2: Экспериментальные условия.

Тип данных

Оригинал

Ускорение в 1.5 раз

Ускорение в 2 раза

Наложение белого шума

Наложение белого шума с ускорением в 1.5 раз

Синтезиро-ванные

+

+

+

-

-

Естествен-ные

+

+

+

+

+

Пример одного из текстов во всех экспериментальных условиях можно послушать тут.

Системы распознавания

Экспериментальные аудио данные мы распознавали системами SpeechKit от Yandex, SaluteSpeech от Сбера и SpeechFlow от Bluepulse. Системы имеют несколько режимов работы в зависимости от требуемой пропускной способности — скорости обработки данных за единицу времени. Данные могут быть потоковыми, то есть распознавание аудио в текст происходит в режиме реального времени, или же поступать в виде аудиофайлов. В первом случае система отправляет результаты распознавания аудиофрагментов потока, в том числе промежуточные, в рамках одного соединения. Во втором случае аудиофайлы могут обрабатываться синхронно или асинхронно. При синхронной обработке существуют более строгие ограничения на формат и объем данных: обычно это короткие фрагменты (например, до 30 секунд) с одноканальным сигналом. Асинхронная обработка имеет расширенные возможности для обработки более сложных сигналов с двумя и более каналами, а также позволяет распознавать аудиофайлы значительно большего размера — общей продолжительностью до нескольких часов.

Для нашего эксперимента мы пользовались системами в том режиме, который установлен для ознакомительного пользования. К сожалению, режимы были не идентичны по конфигурации, это необходимо иметь в виду при сравнении качества распознавания. SaluteSpeech и SpeechFlow имеют похожий конвейер: фрагменты аудио загружаются  на сервер, обрабатываются (вероятно, в асинхронном режиме). Система Сбера была значительно удобнее и быстрее в плане обработки данных: интерфейс SaluteSpeech позволяет работать с данными в одном окне, добавляя сразу несколько фрагментов, которые будут обработаны последовательно (см. рисунок 2).

Рисунок 2: Интерфейс системы SaluteSpeech от Сбера.
Рисунок 2: Интерфейс системы SaluteSpeech от Сбера.

Использовать интерфейс SpeechFlow от Bluepulse оказалось значительно менее удобно. Во-первых, SpeechFlow ориентирована на английский язык, а русская речь по приоритетности там на N-ном месте, поэтому всякий раз при загрузке файла приходилось вручную выбирать язык из выпадающего списка (см. рисунок 3). Во-вторых, файлы обрабатываются по одному, и для каждого нужно переходить в отдельное окно расшифровки данных. В-третьих, скорость обработки системы оставляла желать лучшего: один примерно 30-секундный фрагмент расшифровывался от 1 до 15 минут.

Рисунок 3. Интерфейс SpeechFlow от Bluepulse.
Рисунок 3. Интерфейс SpeechFlow от Bluepulse.

Yandex SpeechKit в демо-версии предлагает только синхронное распознавание минутных отрывков. Ограничениями системы SpeechKit определялась максимальная длина фрагментов, которые мы подбирали для эксперимента. Другое важное отличие состоит в том, что демо-версия системы не расставляет ни запятых, ни точек, хотя в документации к продукту описано, что все конфигурации системы включают этап пост-обработки с расстановкой знаков препинания и преобразованием числительных в цифры. Замена числительных цифрами присутствует и даже с избытком (например, гораздо уместнее использовать слова, а не цифры в контексте «1 [первое] на что я обратил внимание в тот 1 [первый] день в бомбее»); однако расстановка знаков препинания в системе, по-видимому, еще не отлажена.

Результаты

1. Количественная оценка

Традиционными метриками количественной оценки качества распознавания являются word error rate (WER) и character error rate (CER). Они рассчитываются как частотность всех видов ошибок в тексте — замен, пропусков и вставок — среди всех слов (для WER) или всех символов (CER). Таким образом, чем ближе значение метрики к 0, тем меньше ошибок и тем лучше работает система распознавания. В наших данных метрики WER и CER были сильно скоррелированы: корреляция Пирсона составила 0.92 для естественных и 0.95 для синтезированных данных. Поэтому для удобства мы будем использовать только одну, более консервативную метрику — WER.

1.1. Жанровая специфика. Для начала нужно было понять, можем ли мы использовать все данные вместе, или же какие-то жанры выбиваются из общей массы по сложности и требуют отдельного анализа. Очевидно значимой разницы в работе систем при распознавании аудио в зависимости от жанра я не обнаружила (см. все экспериментальные условия на рисунке 4). Однако удивительно, что несколько больше сложностей у систем возникало с отрывками газетного жанра, а меньше всего с научной литературой.

Рисунок 4. Качество распознавания текстов в зависимости от их жанровой принадлежности по метрике WER.
Рисунок 4. Качество распознавания текстов в зависимости от их жанровой принадлежности по метрике WER.

Эта закономерность характерна как для синтезированных, так и для естественных данных. Вероятно, ситуация объясняется спецификой закрытых данных, на которых обучались модели, однако до конца неясно, почему с текстами более простыми по структуре и словарю возникало больше сложностей, чем с научными диссертациями. Поскольку для всех жанров мы наблюдали похожую картину, в зависимости от типа экспериментального условия, при дальнейшем анализе я не разграничивала аудио по жанрам.

1.2. Экспериментальное условие. Основной целью исследования было оценить устойчивость систем к работе в сложных условиях, близких к работе по назначению. Эффект двух контролируемых факторов я симулировала, модифицируя исходные данные: добавив белый шум и ускорив темп аудио.

Во-первых, сопоставим естественные и синтезированные данные в оригинале и с ускорением темпа речи (усредненные метрики по всем экспериментальным условиям приведены в таблице 3). Как я и предполагала, синтезированные данные были проще для систем распознавания, чем естественная речь. Кроме того, при увеличении темпа речи и, соответственно, сложности условия, разрыв между качеством распознавания естественной и синтезированной речи нелинейно прирастал. Например, Yandex SpeechKit практически одинаково хорошо справлялся с оригинальными естественными и синтезированными записями: метрика WER составила 0.31 против 0.29. Однако, при ускорении темпа речи в 1.5 раз, разрыв в качестве распознавания возрос примерно в 1.7 раз (0.48 для естественной против 0.29 для синтезированной речи). При ускорении в 2 раза, разрыв в производительности системы увеличился более, чем в 2.6 раз (0.92 против 0.35). Это указывает на то, что кумулятивный негативный эффект при взаимодействии различных типов помех больше простой суммы индивидуальных эффектов.

Таблица 3: Экспериментальные условия.

Условие

STT

WER, среднее
(среднекв. отклонение)

Естественные данные

Синтезированные данные

Оригинал

SaluteSpeech

0.24 (0.08)

0.23 (0.07)

SpeechFlow

0.20 (0.07)

0.16 (0.07)

YandexSpeechKit

0.31 (0.07)

0.29 (0.08)

Ускорение в 1.5 раз

SaluteSpeech

0.37 (0.21)

0.28 (0.08)

SpeechFlow

0.30 (0.13)

0.19 (0.08)

YandexSpeechKit

0.48 (0.19)

0.29 (0.07)

Ускорение в 2 раза

SaluteSpeech

0.98 (0.07)

0.99 (0.02)

SpeechFlow

0.62 (0.09)

0.37 (0.11)

YandexSpeechKit

0.92 (0.14)

0.35 (0.07)

Фоновый шум

SaluteSpeech

0.26 (0.07)

SpeechFlow

0.24 (0.10)

YandexSpeechKit

0.63 (0.13)

Фоновый шум с ускорением в 1.5 раз

SaluteSpeech

0.48 (0.18)

SpeechFlow

0.45 (0.10)

YandexSpeechKit

0.77 (0.17)

Во-вторых, заметно, что система Сбера SaluteSpeech пасует перед слишком высоким темпом речи (ускорение в 2 раза): в подавляющем большинстве случаев STT модуль просто отказывался распознавать аудио, оставляя пустым поле распознанного текста в интерфейсе. Создается ощущение, что это сделано искусственно — решением создателей. Полагаю, причина в том, что выше какого-то порога ошибок любой ответ системы будет считаться неудовлетворительным для практических целей, когда проще заново затранскрибировать текст, чем корректировать транскрипцию. В следующем разделе по качественной оценке работы систем мы рассмотрим несколько иллюстрирующих примеров.

В-третьих, если исключить условие по ускорению в 2 раза, по метрике WER лучше всего с задачей распознавания справилась система Bluepulse, на втором — система Сбера, на третьем — система Yandex. При этом Yandex оказался самым чувствительным к добавлению шума: условия «фоновый шум» (natural & noise) и «фоновый шум с ускорением» (natural & noise & 1.5) на рисунке 5 иллюстрируют явное превосходство SaluteSpeech и SpeechFlow в распознавании зашумлённых данных.

Рисунок 5. Количественная оценка качества распознавания аудио системами SaluteSpeech, Yandex SpeechKit и SpeechFlow в зависимости от экспериментального условия.
Рисунок 5. Количественная оценка качества распознавания аудио системами SaluteSpeech, Yandex SpeechKit и SpeechFlow в зависимости от экспериментального условия.

Это наблюдение подтверждается данными в таблице 3: например, SaluteSpeech распознаёт естественные данные с шумом с качеством WER=0.26, SpeechFlow имеет близкий показатель WER=0.24, а Yandex SpeechKit почти в 3 раза хуже WER=0.63.

2. Качественная оценка

2.1. Различия в типах ошибок.

Любопытной особенностью работы систем были типы ошибок. В качестве примера возьмем отрывок из текста газетного жанра:

«Разговорный стиль уникален, в первую очередь, тем, что заменяет личную беседу с человеком. Если Вы посмотрите на свои тексты, то обнаружите, что многие из них изобилуют конструкциями, которые Вы бы не сказали человеку тет-а-тет. Это логично, ведь Ваш собеседник может Вас перебить, если сочтет, что Вы “вливаете” ему в уши уж слишком много воды, попросив перейти ближе к делу. Или, чего хуже, начнет задавать наводящие вопросы».

Характерной ошибкой SpeechFlow от Bluepulse, которая выделяет систему среди других решений, является порождение несуществующих слов. Кроме того, SpeechFlow часто пропускает или заменяет слова и использует неверные грамматические формы (ниже распознана синтезированная запись с ускорением в 2 раза, WER=0.34):

«Разговорный стиль николен [уникален] в первую очередь тем, что замен меняет личную беседу с человеком. Если вы посмотрите на свои тексты, то обнаружите, что многие из них изобилут [изобилуют] конструкции, которой вы бы не сказали. Человекут-тет [человеку тет-а-тет]. Это логично, ведь ваш бессединик [собеседник] может васстребить [вас перебить], если сочтет, что вы бливаете [вливаете] ему в ушиу [уши]. У слишком много воды, попросив перейти ближе к делу или чего хуже, начнут задавать наводящие вопросы».

Вероятно, генерация несуществующих слов — это погрешность их языковой модели, функцией которой является обработка выхода из акустической модели и генерация формировка текста по словам. Модель системы Bluepulse мультилингвальна и, вероятно, недостаточно обучена на русскоязычных данных.

Для системы Yandex SpeechKit характерно использование неверных форм слов, пропуски, избыточное замещение числительных числами, а также полное отсутствие пунктуации (распознана синтезированная запись с ускорением в 2 раза, WER=0.42):

«Разговорный стиль уникален в 1 очередь тем что заменяет личную беседу с человеком если вы посмотрите на свои тексты то обнаружите что многие из них изобилуют конструкциями которые вы бы не сказали человеку [тет-а-тет] это логично ведь ваш собеседник может вас перебить если сочтет что вы вливаете ему в уши уж слишком много воды попроси перейти ближе к делу или чего хуже начну задавать наводящий вопрос».

Система SaluteSpeech от Сбера может порождать несуществующие слова, но реже, чем SpeechFlow, меняет числительные на числа, пропускает слова, а также может неверно разграничивать предложения и фразы (распознана естественная запись с добавлением шума, WER=0.29):

«Разговорный стиль уникален в 1 очередь тем, что заменяет личную беседу с человеком. Если вы посмотрите на свои тексты, то обнаружите, что многие из них изобилуют конструкциями, которые вы бы не сказали человеку тет, а тет это логично, ведь ваш собеседник может вас перебить, если сочтет, что вы вливаете ему в уши уж слишком много воды, попросив перейти ближе к делу или, чего хуже, начнет задавать наводящие. Вопросы?».

2.2. Оценка соответствия количественной метрики качеству распознавания.

Доминирование количественных оценок в любых ML-задачах и бенчмарках понятно: это быстро, критерии обговорены заранее и объективны. Однако, часто количественные метрики могут быть обманчивы. Например, глядя на рисунок 5, складывается впечатление, что SpeechFlow значительно лучше справляется не только с базовыми условиями (оригинал, ускорение в 1.5 раз, фоновый шум), но и с более сложными задачами (ускорением в 2 раза, фоновым шумом с ускорением в 1.5 раз).

Если мы вернемся к примерам в разделе 2.1, то увидим, что метрика WER не всегда соответствует смысловому качеству распознавания для трех решений. Например, содержание текста, распознанного Yandex SpeechKit, достаточно соответствует оригиналу при метрике WER=0.42; результат работы SpeechFlow оценен выше, WER=0.34, но из-за обилия замен несуществующими словами, уловить смысл текста лично мне было значительно сложнее.

Давайте для иллюстрации рассмотрим работу системы SpeechFlow на еще одном примере — в транскрибировании аудиоверсии следующего отрывка научной диссертации:
«Алгоритмы разрешения неоднозначности, базирующиеся на базах знаний, показывают точность предсказаний значений, сравнимую с методами обучения с учителем, но обычно они их не превосходят. Именно поэтому сейчас большинство передовых моделей разрешения лексической неоднозначности основаны на методах обучения с учителем. Необходимым компонентом любой системы машинного обучения с учителем является размеченный корпус, а если речь идет о подходах на основе нейронных сетей, то аннотированных данных требуется очень много».

Ускоренную в 2 раза версию аудиозаписи SpeechFlow распознала с качеством WER=0.52. Вот как выглядит эта версия:

«Алгорим разрешения неоднозначности, позирующиеся намазазнании показываютность с предказанами значений сравни с методами обучения учителя, но обычно о них не превосходят. Именно поэтому сейчас пришло передовых моделей разрешения электической неоднозначности основан наах обучения учителя. Пой поэтомуму компента любой системой машина обуч учителя является различный корпус, а если речь идет откода на основе нейрнных сетей, то на терных данных требуется очень много».

Вот версия текста, который выдала система SpeechFlow, при метрике WER=0.37:

«Алгоритмы разрешения неоднозначности. Дозирующиеся на бато знания показывают точность приказания значений сравнимы с методами обучения с учителем, но обычно они не превосходят именно поэтому. Сейчас большинство передовых моделей разрешениялектической неоднозначности основаны на методах обучения с учителя. Необходимым компонентам любой системы машины по обучению с учителя является различный коррд, а если речь идет подходах на основе нейронных сетей, то аннотированных дам требуется очень много».

Хотя в этой транскрипции и распознано верно около 50-60% слов, однако уловить основной смысл текста трудно, не говоря уже об использовании текста для более сложных NLP-задач.

Рассмотрим пример распознавания аудиозаписи следующего художественного отрывка:
«Риццу ждал, держа в руках шляпу – торжественно, будто на мессе. Они забрались в запряженную осликом повозку. Борта этого странного желто-зеленого средства передвижения были расписаны сценами великих битв, кораблекрушений и чудес, происходивших на острове. Этот транспорт предназначался не для мирской суеты. В тишине, нарушаемой только шумом моря, они двигались по сонным улицам городка. Лунный свет поблескивал на листьях пальм, ложился на пыльный круп ослика».

Аудио с ускорением в 1.5 раз SpeechFlow распознала с качеством WER=0.23:

«Присуждал, держа в руках шляпу торжественно, будто на месте они забрались запряжную осликом повозку. Борта этого странного желто-зеленого средства передвижения были расписаны сценами великих битв, кораблешений и чудес, происходивших на острове. Этот транспорт предназначался не для мирской суеты, в тишине, нарушаемой только шумом моря, они двигались по сонным улицам городка, лунный свет поблескивал на листьях, пальм ложился на пыльный крупруг, ослика».

Смысл в целом понятен, однако детали содержания и художественная составляющая ускользают.

Таким образом, опыт распознавания живых данных системой SpeechFlow показывает, что метрике WER в районе 0.35—0.5  и выше соответствует неудовлетворительная работа системы, когда сложно понять смысл распознанного текста, а метрике 0.15—0.3 соответствует грязный черновик, который можно использовать для понимания основной мысли или основной тональности текста.

Для систем Yandex SpeechKit и SaluteSpeech от Сбера пороговые значения более высокие. Например, в районе WER=0.35 обе системы выдают текст с сохранением основных мыслей текста:

«Присуждал, держа в руках шляпы торжественно, будто на месте, они забрались запряженную осликом повозку борта этого странного желто зеленого средства передвижения были расписаны сценами великих битв, кораблекрушений и чудес, происходивших на Острове этот транспорт предназначался не для Мирской суеты в тишине нарушаемой только шумом моря. Они двигались по сонным улицам городка, лунный свет поблескивал на листьях пальм, ложился на пыльный круг ослика». (SaluteSpeech, WER=0.36).

«Рассуждал держа в руках шляпу торжественно будто на месте они забрались в запряженную осликом повозку борта этого странного желто зеленого средства передвижения были расписаны сценами великих битв кораблекрушений и чудес происходивших на острове этот транспорт предназначался не для мирской суеты в тишине нарушаемой только шумом моря они двигались по сонным улицам городка лунный свет поблескивал на листьях пальм ложился на пыльный круг ослика». (SpeechKit, WER=0.38).

При WER≈0.15 (соответствует качеству «грязного черновика» для системы  SpeechFlow) SpeechKit и SaluteSpeech выдают высоко детализированный текст, большая часть информации оригинального текста остается в неизменном виде. Рассмотрим примеры расшифровки следующего научного отрывка:

«В работе впервые изучены тонкие (наномасштабные) особенности внутреннего строения и химического состава пирамид роста несингулярных поверхностей, получен ряд принципиально новых результатов, описывающих природу напряжений в таких кристаллах и объясняющих возникновение в них оптических аномалий - одного из основных диагностических признаков подобного материала. Сопутствующие результаты, полученные при рассмотрении этих вопросов, выходят за рамки настоящей работы и представляют интерес для минералогии в целом».

«В работе впервые изучены тонкие наномасштабные особенности внутреннего строения химического состава пирамид роста несингулярных поверхностей, получен ряд принципиально новых результатов, описывающих природу напряжений таких кристаллов и объясняющих возникновение в них оптических аномалий 1 из основных диагностических признаков подобного материала сопутствующие результаты. Результаты, полученные при рассмотрении этих вопросов, выходят за рамки настоящей работы и представляют интерес для нейрологии в целом». (SaluteSpeech, WER=0.18).

«В работе впервые изучены тонкие наномасштабные особенности внутреннего строения химического состава пирамид роста несингулярных поверхностей получен ряд принципиально новых результатов описывающих природу напряжений в таких кристаллах и объясняющих возникновение в них оптических аномалий 1 из основных диагностических признаков подобного материала сопутствующие результаты полученные при рассмотрении этих вопросов выходят за рамки настоящей работы и представляет интерес для минералогии в целом». (SpeechKit, WER=0.20).

Таким образом, количественная метрика WER может дать индикативную оценку качества распознавания, она является неоптимальной для сопоставления работы систем.

Заключение

Мы рассмотрели результаты небольшого эксперимента по тестированию трех STT-систем в «боевых условиях». Мы убедились, что количественные метрики типа WER/CER могут быть обманчивы при сопоставлении решений, на них лучше ориентироваться как на источник индикативной оценки качества работы или же использовать при работе с одной системой, то есть когда типы ошибок консистентны. Близкое рассмотрение результатов работы SpeechKit, SaluteSpeech и SpeechFlow указывает, что три решения имеют близкие показатели распознавания, и у каждого есть специфические уязвимые места. Система SpeechKit более чувствительна к фоновому шуму и игнорирует пунктуацию. SaluteSpeech не может распознавать высокий темп речи. SpeechFlow систематически порождает несуществующие слова, которые значительно сильнее мешают восприятию смысла, чем пропуски слов или замены реальными словами. 

Спасибо за внимание! Надеемся, что статья была для вас полезна.

Больше полезных материалов для разработчиков и архитекторов мы также публикуем в наших соцсетях – ВК и Telegram.

Теги:
Хабы:
+6
Комментарии0

Публикации

Информация

Сайт
www.simbirsoft.com
Дата регистрации
Дата основания
Численность
1 001–5 000 человек
Местоположение
Россия