• Распознавание речи. Часть 3. Голосовой тракт, слуховой тракт

      Зачем нам это надо

      Когда заходит разговор о распознавании речи, невозможно оставаться исключительно в сфере «анализа сигналов» (на то есть отдельные труды и отрасли науки). Всегда надо помнить, что при анализе речи мы работаем с особым видом сигнала, который воспроизводится определенной биологической системой. С одной стороны, она ограничена своими амплитудно-частотными характеристиками (АЧХ), а с другой стороны, самим языком и стандартным набором звуков, которые могут быть произнесены его носителем (например, при анализе русского языка мы не будем принимать во внимание возможность цоканья и свиста). Исходя из поставленной задачи, можно достаточно точно определить характеристики сигнала речи, и его основные свойства.
      Тема урока
      С другой стороны, для этого сигнала природой же разработан приемник, близкий к идеальному. Это наш слуховой тракт. Пока что не изобретено и не найдено ни одной другой системы, которая могла бы так же точно и качественно заниматься распознаванием речи. Было бы кощунством пренебречь возможностью поучиться этому у природы. Если познакомится с особенностями слухового тракта поближе, начинаешь понимать, что вейвлеты и преобразование Фурье в такие задачи пришли не с потолка. И системы, обеспечивающие разложение сигнала на частотный спектр, появились гораздо раньше первого наскального рисунка…
      Урок по биологии: кто такая улитка, и чем она похожа на гребенку фильтров...
    • Распознавание речи. Часть 2. Типичная структура системы распознавания речи

        Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений. Каждый уровень иерархии может предусматривать некоторые временные константы, например, возможные последовательности слов или известные виды произношения, которые позволяют уменьшить количество ошибок распознавания на более низком уровне. Чем больше мы знаем (или предполагаем) априорной информации о входном сигнале, тем качественнее мы можем его обработать и распознать.image
        Читать дальше →
      • Распознавание речи. Часть 1. Классификация систем распознавания речи

          Эпиграф

          В России, направление систем распознавания речи действительно развито довольно слабо. Google давно анонсировала систему записи и распознавания телефонных разговоров… Про системы похожего масштаба и качества распознавания на русском языке, к сожалению, я пока не слышал.

          Но не нужно думать, что за рубежом все уже все давно открыли и нам их никогда не догнать. Когда я искал материал для этой серии, пришлось перерыть тучу зарубежной литературы и диссертаций. Причем статьи и диссертации эти были замечательных американских ученых Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk и др. Понятно, на ком эта отрасль американской науки держится? ;0)

          В России я знаю только одну толковую компанию, которой удалось вывести отечественные системы распознавания речи на коммерческий уровень: Центр речевых технологий. Но, возможно, после этой серии статей кому-нибудь придет в голову, что заняться разработкой таких систем можно и нужно. Тем более, что в плане алгоритмов и мат. аппарата мы практически не отстали.

          image

          Классификация систем распознавания речи



          На сегодняшний день, под понятием “распознавание речи” скрывается целая сфера научной и инженерной деятельности. В общем, каждая задача распознавания речи сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь из входного звукового потока. Это может быть и выполнение определенного действия на команду человека, и выделение определенного слова-маркера из большого массива телефонных переговоров, и системы для голосового ввода текста.

          Признаки систем и большущая диаграмма