Форманты – это такие области в спектре звука речи, где концентрация энергии максимальна. Впервые формантный подход был предложен еще в 1929 году Д. Коллардом. Он прочно держал свои позиции до 70-х, пока не был предложен модуляционный подход, позволяющий учесть не только шумовую, но и реверберационную помеху, эхо и нелинейные искажения.
За 80 лет существования формантный подход обрел много сторонников и модификаций, однако самой распространенной стала зарубежная версия формантного метода, известная как индекс артикуляции (AI). К нему мы придем, рассмотрев версию Н. Б. Покровского и базирующийся на нем современный отечественный метод измерения разборчивости речи.
Согласно этому методу всю анализируемую область частот разбивают на несколько смежных полос, в пределах каждой из которых плотность вероятностей формант, спектры речи и шума приближенно считаются постоянными. Артикуляционная разборчивость представляет собой сумму разборчивостей формант каждой полосы:


K — количество смежных полос;
pk — вероятность пребывания формант в k-ой полосе частот;
F1(f) — функция распределения вероятностей формант;
fok — центральная частота полосы;
fнk — нижняя граничная частота полосы;
fвk — верхняя граничная частота полосы;
P(E'k) — коэффициент восприятия речи, иначе вероятность отсутствия маскировки речи шумом.
Коэффициент восприятия речи зависит от разности уровней формантного спектра и спектра помехи. При достаточно больших уровнях шума это отношение сигнал/шум в каждой из полос частот.

Откровенно говоря, кривая коэффициента восприятия речи для каждой полосы частот разная, однако в методе Н. Б. Покровского им же и было предложено не обращать на это внимания и использовать какую-то одну кривую для упрощения расчетов. Методическая погрешность на лицо.
Конечно, для полноценного описания метода Покровского нужно привести еще как минимум методику построения коэффициентов восприятия, ряд формул и замечаний, однако так как это не есть целью данной статьи, будем двигаться дальше.
Современный российский метод был предложен в 2000-м году Железняком Я. И., Макаровым Ю. К. и Хоревым А. А. Фактически он повторяет метод Покровского Н. Б. с тем лишь отличием, что анализ сигнала производится в пяти октавных полосах частот. Также предполагается автоматизация вычислений, что потребовало аппроксимацию измеряемых величин аналитическими соотношениями.
Как и прежде, артикуляционная разборчивость определяется выражением:

Аналитические соотношения:




E'k — эффективный уровень ощущения формант в полосе частот;
Ek — эффективный уровень ощущения речевого сигнала в полосе частот, при относительно большом уровне шума равный отношению сигнал/шум SNR;
∆B(f) — разница между усредненным спектром речи и спектром формант;

Dsk, Dnk — дисперсии сигнала и шума соответственно;

Словесную разборчивость вычисляют с помощью формантной:

В. Л. Каргашиным было высказано мнение, что данная версия должна быть усовершенствована, а именно:
Выше перечисленное присутствует в методе AI.
Использование индекса артикуляции было предложено Г. Флетчером 1940 году. Существует две версии данного метода:
Рассмотрим данный метод для двадцати равноартикуляционных полос. Разборчивость речи определяют все по той же формуле:

Однако так как вычисления производятся в двадцати полосах, формула выше принимает вид:

∆Li — разница между пиковым уровнем речи и эффективным уровнем маскирующего шума

Таким образом

Может возникнуть вопрос, имеем ли мы право аппроксимировать коэффициент восприятия такой линейной зависимостью? Имеем, поскольку результат, полученный с использованием кривых по Покровскому, будет таким же усредненным, как и результат, полученный с аппроксимацией линейной зависимостью.

Bр пик — пиковый уровень речи;
Bш — эффективный уровень шума;
Пр — пик фактор – отношение пикового значения уровня к среднеквадратическому;
E — эффективный уровень ощущения речевого сигнала
Пересчет индекса артикуляции в словесную и фразовую разборчивости осуществляют по графику:

Различные оценки по индексу артикуляции представлены ниже:



В методе учитываются:
Метод неприменим:
За 80 лет существования формантный подход обрел много сторонников и модификаций, однако самой распространенной стала зарубежная версия формантного метода, известная как индекс артикуляции (AI). К нему мы придем, рассмотрев версию Н. Б. Покровского и базирующийся на нем современный отечественный метод измерения разборчивости речи.
Покровский метод
Согласно этому методу всю анализируемую область частот разбивают на несколько смежных полос, в пределах каждой из которых плотность вероятностей формант, спектры речи и шума приближенно считаются постоянными. Артикуляционная разборчивость представляет собой сумму разборчивостей формант каждой полосы:


K — количество смежных полос;
pk — вероятность пребывания формант в k-ой полосе частот;
F1(f) — функция распределения вероятностей формант;
fok — центральная частота полосы;
fнk — нижняя граничная частота полосы;
fвk — верхняя граничная частота полосы;
P(E'k) — коэффициент восприятия речи, иначе вероятность отсутствия маскировки речи шумом.
Коэффициент восприятия речи зависит от разности уровней формантного спектра и спектра помехи. При достаточно больших уровнях шума это отношение сигнал/шум в каждой из полос частот.

Откровенно говоря, кривая коэффициента восприятия речи для каждой полосы частот разная, однако в методе Н. Б. Покровского им же и было предложено не обращать на это внимания и использовать какую-то одну кривую для упрощения расчетов. Методическая погрешность на лицо.
Конечно, для полноценного описания метода Покровского нужно привести еще как минимум методику построения коэффициентов восприятия, ряд формул и замечаний, однако так как это не есть целью данной статьи, будем двигаться дальше.
Почти AI
Современный российский метод был предложен в 2000-м году Железняком Я. И., Макаровым Ю. К. и Хоревым А. А. Фактически он повторяет метод Покровского Н. Б. с тем лишь отличием, что анализ сигнала производится в пяти октавных полосах частот. Также предполагается автоматизация вычислений, что потребовало аппроксимацию измеряемых величин аналитическими соотношениями.
f0, Гц | 250 | 500 | 1000 | 2000 | 4000 |
---|---|---|---|---|---|
∆f, Гц | 180...355 | 355...710 | 710...1400 | 1400...2800 | 2800...5600 |
∆f — полоса частот; f0 — средняя частота полосы |
Как и прежде, артикуляционная разборчивость определяется выражением:

Аналитические соотношения:




E'k — эффективный уровень ощущения формант в полосе частот;
Ek — эффективный уровень ощущения речевого сигнала в полосе частот, при относительно большом уровне шума равный отношению сигнал/шум SNR;
∆B(f) — разница между усредненным спектром речи и спектром формант;

Dsk, Dnk — дисперсии сигнала и шума соответственно;

Словесную разборчивость вычисляют с помощью формантной:

В. Л. Каргашиным было высказано мнение, что данная версия должна быть усовершенствована, а именно:
- нужно добавить еще одну полосу анализа с центральной частотой 8 кГц;
- должна быть реализована возможность расчета в третьоктавных полосах;
- желательно аппроксимировать коэффициент восприятия более простой функцией
Выше перечисленное присутствует в методе AI.
AI
Использование индекса артикуляции было предложено Г. Флетчером 1940 году. Существует две версии данного метода:
- для двадцати равноартикуляционных полос;
- для шести октавных либо пятнадцати третьоктавных полос
Рассмотрим данный метод для двадцати равноартикуляционных полос. Разборчивость речи определяют все по той же формуле:

Однако так как вычисления производятся в двадцати полосах, формула выше принимает вид:

∆Li — разница между пиковым уровнем речи и эффективным уровнем маскирующего шума

Таким образом

Может возникнуть вопрос, имеем ли мы право аппроксимировать коэффициент восприятия такой линейной зависимостью? Имеем, поскольку результат, полученный с использованием кривых по Покровскому, будет таким же усредненным, как и результат, полученный с аппроксимацией линейной зависимостью.

Bр пик — пиковый уровень речи;
Bш — эффективный уровень шума;
Пр — пик фактор – отношение пикового значения уровня к среднеквадратическому;
E — эффективный уровень ощущения речевого сигнала
Пересчет индекса артикуляции в словесную и фразовую разборчивости осуществляют по графику:

Различные оценки по индексу артикуляции представлены ниже:



В методе учитываются:
- влияние реверберационной помехи;
- влияние АЧХ тракта передачи;
- нестационарный характер маскирующего шума, если известен его рабочий цикл или время включения/выключения;
- влияние клиппирования;
Метод неприменим:
- если на речевой сигнал влияет несколько разных типов помех;
- в случае смешанного приема сигнала от диктора и громкоговорителя
Подвал
- Акустическая экспертиза каналов речевой коммуникации. Монография / Дидковский В. С., Дидковская М. В., Продеус А. Н. – Киев, 2008. 420.
- electrovoice.com.ua