Скрытые Марковские модели в распознавании речи

Самое быстрое и эффективное взаимодействие между людьми происходит посредством устной речи. С помощью речи могут быть переданы различные чувства и эмоции, а главное — полезная информация. Необходимость создания компьютерных интерфейсов звукового ввода-вывода не вызывает сомнений, поскольку их эффективность основана на практически неограниченных возможностях формулировки в самых различных областях человеческой деятельности.

Первая электронная машина, синтезирующая английскую речь, была представлена в Нью-Йорке на торговой выставке в 1939 году и называлась voder, но звук, который она воспроизводила, был крайне нечетким. Первое же устройство для распознавания речи вышло в свет в 1952 втором году и было способно распознавать цифры.

При процессе распознавания речи можно выделить следующие сложности: произвольный, наивный пользователь; спонтанная речь, сопровождаемая аграмматизмами и речевым «мусором»; наличие акустических помех и искажений; наличие речевых помех.

Из всего многообразия методов в данной статье мы рассмотрим возможность создания статистической модели посредством скрытых Марковских моделей (СММ).

Part-Of-Speech tagging



При анализе естественного языка первым шагом необходимо определить: к какой части речи относится каждое из слов в предложении. В английском языке задача на этом этапе называется Part-Of-Speech tagging. Каким образом мы можем определить часть речи отдельного члена предложения? Рассмотрим предложение на английском языке: «The can will rust». Итак, the –определенный артикль или частица «тем»; can – может одновременно являться и модальным глаголом, и существительным, и глаголом; will – модальный глагол, существительное и глагол; rust – существительное или глагол. В статистическом подходе необходимо построить таблицу вероятностей использования слов в каждом грамматическом значении. Эту задачу можно решить на основе тестовых текстов, проанализированных вручную. И сразу можно выделить одну из проблем: слово «can» в большинстве случаев используется в качестве глагола, но иногда оно может являться и существительным. Учитывая этот недостаток, была создана модель, принимающая во внимание тот факт, что после артикля последует прилагательное или существительное:
формула
Где:
t – таг (существительное, прилагательное и т.д.)
w – слово в тексте (rust, can …)
p(w|t) – вероятность того, что слово w соответствует тагу t
p(t1|t2) – вероятность того, что t1 идет после t2

Из предложенной формулы видно, что мы пытаемся подобрать таги так, чтобы слово подходило тагу, и таг подходил предыдущему тагу. Данный метод позволяет определить, что «can» выступает в роли существительного, а не как модального глагола.

Эта статистическая модель может быть описана как эргодическая СММ:
Эргодическая Марковская модель.

Эргодическая Марковская модель
Эргодическая Марковская модель на практике.
Эргодическая Марковская модель на практике

Каждая вершина в данной схемы обозначает отдельную часть речи, в которой записываются пары (слово; вероятность, что слово относится именно к этой части речи). Переходы показывают возможную вероятность следования одной части речи за другой. Так, например, вероятность того, что подряд будут идти 2 артикля, при условии, что встретится артикль, будет равна 0,0016. Данный этап распознавания речи очень важен, так как правильное определение грамматической структуры предложения позволяет подобрать верную грамматическую конструкцию для экспрессивной окраски воспроизводимого предложения.

N-граммные модели



Также существуют n-граммные модели распознавания речевого потока. Они основаны на предположении, что вероятность употребления очередного слова в предложении зависит только от n-1 слов. Сегодня наиболее популярные биграммные и триграммные модели языка. Поиск в таких моделях происходит по большой таблице (корпусу). Несмотря на быстро работающий алгоритм, такие модели не способны уловить семантические и синтаксические связи, если зависимые слова находятся на расстоянии 5 слов друг от друга. Использование же n-граммных моделей, где n больше чем 5, требует огромных мощностей.

Как уже отмечалось выше, самой популярной моделью на сегодняшний день является триграммная модель. Условная вероятность наблюдения предложения w1, … wn приближена к:

P(w1,…,wn) = ΠP(wi | w1,…,w2) ≈ ΠP(wi | wi-(n-1), …, wi-1)

Например, рассмотрим предложение «I want to go home». Вероятность этого предложения можно вычислить от счета частоты n-грамма (в этом примере возьмем n=3):

P(I, want, to, go, home) ≈ P(I)*P(want|I)*P(to|I, want)*P(go|want, to)*P(home| to, go)

Стоит отметить, дальнодействующую триграммную модель, в которой анализ ведется не только по двум предшествующим словам, а по любой паре слов, находящихся рядом. Такая триграммная модель может пропускать малоинформативные слова, тем самым улучшая предсказуемость сочетаемости в модели.

Средняя зарплата в IT

120 000 ₽/мес.
Средняя зарплата по всем IT-специализациям на основании 9 370 анкет, за 1-ое пол. 2021 года Узнать свою зарплату
Реклама
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее

Комментарии 9

    +5
    Кроме вступления, большая часть поста относится, по-моему, к семантическому распознаванию текста, не важно, полученному с аудио потока, из OCR или введенного с клавиатуры, не?
      +2
      Видимо раскрыл тему не много не в том ключе: данные алгоритмы можно применять не только на последних этапах анализа звукового сигнала (когда все звуковые единицы распознаны), а также на фонемном уровне, при том, существенных различий в их использовании не будет.
        +1
        Нейронных сетей для этой задачки не хватает.
      +1
      хорошая статья, спасибо. довольно сжато и все по теме, но маааало.
      продолжите?)
        +1
        Да, только немного позже, на данный момент занимаюсь переводом статей по нейронным сетям, чтобы войти в курс дела, и чуть позже продолжу исследование данных технологий в области прикладной лингвистики. )
      • НЛО прилетело и опубликовало эту надпись здесь
          0
          Где-то я это слышал:)
            0
            Возможно вы видели отдельные примеры в различных книгах и на различных интернет ресурсах, так как для написания статьи использовалось множество источников:

            1. Davies, K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recogni-tion of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 — 642
            2. Fink, G. A. Markov Models for Pattern Recognition From Theory to Applications. Berlin Heidelberg: Springer-Verlag. 2008.
            3. Now a Machine That Talks With the Woice of Man. (14 January 1939 r.). Science News Letter.
            4. Бабин Д.Н., Мазуренко И.Л… Холоденко А.Б. О перспективах создания сис-темы автоматического распознавания слитной устной русской речи. Интеллектуальные системы(т.8). 2004.
            5. Беседин И.Ю. Анализ проблем автоматического распознавания речи. Вест-ник Ставропольского государственного университета (70). 2010.
            6. Галунов В.И., Соловьев А. Современные проблемы в области распознавания речи. Ин-формационные технологии и вычислительные системы, №2, 2004.
            7. Кофман А. Понятие нечеткого подмножеста. В К. А., Введение в теорию не-четких множеств. Москва: Радио и связь. 1982.
            8. Куневич Я.Г., Кушнарев Д.А. Статистическая модель языка. Сборник работ 66-ой научной конференции студентов и аспирантов Белорусского государственного университета (т. 3). Май, 2009.
            9. Медведев М.С. Использование вейвлет-преобразования для построения мо-делей фонем русского языка. Вестник КрасГУ. Серия физ.-мат. науки (9). 2006.
            10. Никитин А., Райков П. Вопросно ответные системы.
            11. Протасов С.В. Вывод и оценка параметров дальнодействующей триграмм-ной модели языка. Труды международной конференции «Диалог 2008».
            12. Гуриев В., М. С. Ничего никому не скажу? КомпьютерраONLINE: www.computerra.ru/hitech/233229/
            13. Курочкин С.Н., Бородин А.Г. Проблемы создания многоуровневой системы распозновании речи. Получено из alife-soft: alife-soft.narod.ru/note/s_recognize/recognize.html
            14. Методы математической статистики и моделирования в сравнительно-историческом языко-знании. Языкознание.ру: yazykoznanie.ru/content/view/27/215/
            15. Холоденко А.Б. О построении статистических языковых моделей для систем распознавания текста. Интеллектуальные системы: intsys.msu.ru/invest/speech/articles/rus_lm.htm
            16. Цепи Маркова. StatSoft: www.statsoft.ru/home/portal/taskboards/mark.htm
              0
              В самой первой формуле опечатка — произведение не по t, а по i.

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое