Измерение разборчивости речи: модуляционный подход

    В предыдущих статьях, посвященных разборчивости речи, я рассмотрел объективные методы и формантный подход. Данный топик будет завершающим, и мы рассмотрим модуляционный подход к измерению разборчивости речи как в системах связи, так и в помещении.

    Рождением модуляционного метода можно считать 1970 год. Т. Ходгаст и Г. Стинекенр разработали систему, которая использовала тестовый сигнал в виде шума, модулированного по амплитуде сигналом фиксированной частоты с огибающей прямоугольной формы. Спектр несущего шума был подобен спектру долговременной речи. В результате при оценке разборчивости удавалось учесть влияние шума, клиппирования и реверберации. В последствии, специально разработанное устройство давало возможность измерить индекс передачи речи STI (speech transmission index).

    STI


    STI – это значение, которое определяет влияние тракта на разборчивость речи. Оно тесно связано с такой характеристикой канала, как функция передачи модуляции MTF (modulation transfer function). MTF – мера того, насколько хорошо сохраняется амплитудная модуляция сигнала в конкретном тракте при его передачи от входа к выходу.

    Не будем лезть в дебри физического обоснования и теоретических выкладок. Думаю, достаточно будет просто привести выражение для вычисления MTF:



    F – частота модуляции;
    T – раннее время реверберации;
    S/N – отношение сигнал/шум в дБ;

    Первый сомножитель учитывает влияние реверберации, второй – влияние шума. Но вопреки простоте данная формула мне не нравится хотя бы потому, что она получена вследствие использования математических моделей. Посему думаю, что целесообразнее будет вычислять MTF по формуле Шрёдера:





    he(t) – импульсная характеристика системы;
    hk(t) – импульсная характеристика октавного фильтра;

    Теперь у нас есть все, чтобы оценить STI по упрощенной методике в небольшом помещении:

    1. Оцениваем 98 значений MTF для 14 значений частот модуляции (F=0.63; 0.8; 1; 1.25; 1.6; 2; 2.5; 3.15; 4; 5; 6.3; 8; 10; 12.5 Гц) в каждой из семи октавных полос с центральными частотами 125; 250; 500; 1k; 2k; 4k; 8k Гц. Подсчет с разными частотами модуляции обуславливается уникальностью речевого аппарата каждого человека.
    2. Каждое значение MTF пересчитываем в эффективное отношение сигнал/шум (SNR):





    3. Усредняем оценки SNR для каждой октавной полосы:



    4. Вычисляем взвешенное среднее значение:



      wk=0.13; 0.14; 0.11; 0.12; 0.19; 0.17; 0.14.
    5. Вычисляем STI, используя соотношение ниже:






    RASTI & STITEL


    RASTI (rapid STI) – упрощенная версия метода STI, в которой учитывается вклад в передачу модуляции лишь двух октавных полос с центральными частотами 500 Гц и 2 кГц. При этом частоты модуляции принимают значения 1; 2; 4; 8 Гц для октавной полосы с центральной частотой 500 Гц, и 0.7; 1.4; 2.8; 5.6; 11.2 Гц для октавной полосы 2 кГц. После вычисления MTF для данных частот и полос, далее расчет производится аналогично алгоритму выше.

    STITEL (STI для телекоммуникационных систем) – упрощенная версия STI, в которой применяется только одна частота модуляции в каждой из семи октавных полос. Несущий шум для каждой октавной полосы имеет ширину спектра пол октавы (во избежание влияния на смежные полосы) и излучается одновременно в каждой полосе частот. Вследствие упрощений данный метод не учитывает влияние реверберации и нелинейных искажений.

    Почти конец


    А теперь подвох: описанное выше применимо для западного семейства языков, в частности для английской речи. Причина кроется в следующем: наблюдается хорошее согласование результатов STI с многочисленными субъективными оценками измерения разборчивости английской речи. В случае же русской/украинской речи хорошего совпадения нет. Посему целесообразнее всего будет применение следующего приема:



    (S/N)ef k — усредненная оценка эффективного отношения сигнал/шум для каждой полосы частот;
    pk — вероятность пребывания формант в k-ой полосе частот;

    Дальнейшие шаги довольно подробно рассмотрены в топике, который был посвящен формантному подходу. Там же описаны некоторые меры для получения более точных результатов.

    Теперь уже точно конец


    Подвал

    1. Акустическая экспертиза каналов речевой коммуникации. Монография / Дидковский В. С., Дидковская М. В., Продеус А. Н. – Киев, 2008. 420.
    2. D. B. Keele, jr., Evaluation of Room Speech Transmission Index and Modulation Transfer Function by the Use of Time Delay Spectrometry, Techron, Div. Crown International, Inc., Elkhart, Indiana, 46517, USA

    Хабраматериалы по теме

    Similar posts

    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 1

      +2
      Спасибо.

      Only users with full accounts can post comments. Log in, please.