IBM 100: Истоки работы над распознаванием речи
Обычный человек, в среднем, пропускает мимо внимания или неправильно распознает 1-2 слова из 20, произнесенных собеседником. В ходе пятиминутной беседы количество не расслышанных или неправильно распознанных человеком слов может достичь 80. Довольно много, правда? А что по поводу компьютеров — какой процент ошибок у них?
В прошлом году корпорация IBM заявила о новом рекорде в разработке технологий распознавания речи. Количество ошибок, допущенных сервисом, снизилось до 6,9%. С тех пор компания многое улучшила, что в 2017 году позволило добиться нового рекорда в 5,5%.
И речь здесь идет вовсе не о распознавании правильно поставленной речи, предложений, произносимых, например, профессиональным диктором. Нет, 5,5% — это показатель ошибок распознавания речи в ходе обсуждения двумя обычными людьми возможности покупки автомобиля или других тем.
Такое достижение стало возможным благодаря объединению LSTM (Long Short Term Memory) и языковых моделей Wave Net с тремя другими акустическими моделями. В результате компьютер в некоторых случаях распознает речь даже с меньшим количеством ошибок, чем человек (здесь средний показатель составляет 5,9%). Но разработчики IBM решили не останавливаться на достигнутом и сейчас хотят добиться минимального уровня ошибок с показателем в 5,1%.
Используемые сейчас речевые модели самообучающиеся. Причем они обучаются не только на удачных случаях распознавания сложных моментов речи, но и на неудачах — почти, как человек. С течением времени система снижает уровень ошибок в распознавании речи человека, улучшая общий результат.
Эксперты считают, что компьютерные системы могут достичь новых рекордов — тот же уровень ошибок при распознавании речи в 5,1% пока что представляет собой вызов для ученых и инженеров. Причем обычные тесты не могут выявить все проблемные места в технологиях распознавания речи, которые могут встретиться при разработке специализированных систем. «Например, разные наборы данных могут быть более и менее чувствительными в зависимости от разных аспектов задачи», — говорит Йошуа Бенджио, один из специалистов, работающих над созданием алгоритмов распознавания речи.
Кстати, результат оценки работы технологий распознавания речи во многом зависит еще и от системы оценки. Например, проценты ошибок, о которых говорилось выше, выводились исходя из стандартов методологии оценки SWITCHBOARD. Но есть и другая методика, которая называется Call Home. В этом случае оценивается количество ошибок в распознавании речи членов семьи при обсуждении случайных тем. Результат человека (уровень ошибок) — 6,8%. Максимальный же результат, полученный машинной системой — 10,3%. Очень неплохо, но уровня человека машины пока не достигли.
«Способность распознавать речь так же, как и человек — это вызов для специалистов по машинному обучению, поскольку речь человека, в особенности, на случайные темы, чрезвычайно сложна», — говорит Джулия Гирчберг, профессор из Колумбийского университета. «Также проблемой является оценка уровня распознавания речи самим человеком, поскольку у разных людей очень разные способности в отношении понимания речи собеседников. Когда мы сравниваем человека и машину, очень важно принять во внимание следующее: эффективность алгоритма и метод оценки уровня ошибок».
По мнению аналитиков из Gartner, достижения IBM могут предопределить будущее всей сферы искусственного интеллекта и «Интернета вещей».
«С распространением цифровых помощников вроде Alexa или Google Assistant снижение уровня ошибок в распознавании речи человека может послужить стимулом для повсеместного использования речевых интерфейсов, как в обычных, так и в корпоративных приложениях», — говорит представитель Gartner Марк Ханг.