therealmoronto Oct 26 2018 at 07:48

Математическая модель фонемы человеческого голоса

3 min

9.5K

Algorithms*SoundMathematics*Physics

Comments 27

Daddy_Cool Oct 26 2018 at 09:06

Маловато будет!
Очень интересно — хотелось бы подробнее и больше.

ihouser Oct 29 2018 at 07:51

Нравится мне статьи, где в конце объясняют, что я увидел и что я понял.

Welran Oct 26 2018 at 09:39

Интересно как такой разбор по фонемам справится с последним феноменом янни/лорел. У них даже звуки все разные и их количество, что не мешает одним людям слышать одно, а другим другое.

Refridgerator Oct 26 2018 at 10:18

Опрос совершенно излишен. Функцию «Понравился ли вам материал?» выполняет суммарная оценка статьи, для подробностей есть комментарии.

Refridgerator Oct 26 2018 at 10:22

В оригинальном сигнале (голосе) фонемы вовсе не обязательно должны иметь строго определённую частоту, и она слегка модулируется, что видно по спектру. В этом плане было бы полезным рассмотреть не только Фурье-, но и (непрерывное) вейвлет-преобразование.

leshabirukov Oct 26 2018 at 12:45

Для чего вейвлеты, чтобы раскрыть временную структуру сигнала? Но она вроде как элементарна у фонемы. Ну и абсолютную частоту иногда отслеживать надо, например, чтобы сравнить с другими фонемами и найти тоновое ударение.

Refridgerator Oct 26 2018 at 14:07

Не временную, а частотно-временную. Вейвлет-преобразование как раз и придумали для того, чтобы обойти частотно-временную неопределённость при преобразовании Фурье. И если воспроизвести указанные форманты, то результат будет очень сильно отличаться от человеческого голоса — из чего следует, что реальное звучание гласных несколько сложнее суммы 15 частот.

therealmoronto Oct 27 2018 at 13:14

Вейвлет раскроет структуру фонемы во времени и то, как происходит модуляция ее. На это влияет эмоциональная окраска и тембр голоса. Здесь же описан самый простой способ математического моделирования. Здесь не представлены, но данная модель себя оправдывает

therealmoronto Oct 27 2018 at 13:16

И вейвлет представляет распределение амплитуды и частоты во времени, так что это не просто частотно-временное распределение.

DimPal Oct 26 2018 at 10:37

Ну и как к гласной фонеме подклеить согласную, что бы получить хотя бы слог?

AnutaU Oct 26 2018 at 11:18

Минутка терминологического занудства

Фонема — это абстрактная единица языка, которая в речи реализуется в звуках (фонах), причём одна и та же фонема может реализовываться в разных звуках в зависимости от позиции. Приведённые физические характеристики относятся именно к звукам, не к фонемам.

therealmoronto Nov 1 2018 at 04:12

Спасибо за уточнение, учту это при написании следующей части материала.

kovserg Oct 26 2018 at 21:18

Вообще я думаю следовало бы упомянуть что наша речь состоит из гласных звуков и согласных. Гласные звуки создаются голосовыми связками (и разными резонаторами нос рот и т.п.) а согласные есть импульсные ( S(t)*exp(-a*t) ) и всякие шипящие и свистящие шумы ( noise(t) ).
Голосовые связки генерируют сигнал похожий на анлийскую букву N (рис 5.7 б)

И потом он модифицируется полостями рта, носа и языком. При этом период сигнала меняется не значительно, но модифицируется гармониками. Это период определяет тембр голоса (муж/жен детский). А гармоники собственно конкретную гласную. Наш мозг способен уверенно выявить такой сигнал если он повторяется 7раз подряд. Возможно следует привязаться к этому факту. И уже после выделения этого опорного сигнала изменять шкалу времени и кластеризовать именно искажения этого задающего сигнала. Это снизит зависимость от говорящего. А простое разложение по частотам это путь в никуда.

DimPal Oct 27 2018 at 11:19

А сонорные звуки вроде «М» или «Н» это какого вида шумы? Импульсные или свистяще-шипящие?

kovserg Oct 27 2018 at 12:02

Комбинированные. Имеется ввиду что следует сначала перейти в систему координат в которой будет проще работать.

DimPal Oct 27 2018 at 13:17

В далекой молодости мы с другом сделали не совсем удачный эксперимент — надиктовали в микрофон все буквы алфавита и попытались из «кусочков» составить слова. Даже после «шлифовки напильником» получалась полная ерунда. Слогами соединять получилось лучше, но тоже не фонтан (интонация и плавность произнесения были ужасны). Возможно стоило более тонко интерполировать звуки соединяя их между собой, но на вскидку задача синтеза голоса оказалась не такая уж простая. В общем, в результате бросили мы эту затею…

kovserg Oct 27 2018 at 15:55

даже расстановка ударений не простая задача

therealmoronto Oct 27 2018 at 19:26

Тем интереснее решать такую задачу. И любая заоача решается путем решения более мелких и простых, из которых состоит основная.

Bhudh Oct 28 2018 at 02:13

Выражения «фонемы человеческого голоса» и «фонемы отдельных букв» (!!!) не имеют смысла.
Вы — носитель окающего говора, что у Вас буква о всего одну фонему обозначает или что?
Мне казалось, что различие буквы и звука вдалбывают ещё в школе. А потом в институте будущим специалистам соответствующих наук уже объясняют, что то, что в школе называлось звуком, по-научному зовётся фонемой. Которая к тому же имеет кучу аллофонов в различных позициях.
К слову, по Московской фонологической школе фонемы /ы/ в русском языке вообще нет.

therealmoronto Oct 28 2018 at 05:50

Каким образом данный монолог касается непосредственно математической модели?

Bhudh Oct 28 2018 at 09:15

Если Вы промахнулись по кнопке «Ответить» и вопрос ко мне, прямым образом.
Какой именно аллофон каждой фонемы описывает модель?
В слове молоко, например, какая "фонема «О»" представлена в таблице и будет сгенерирована? И вообще, фонемы обычно пишутся в нотации МФА и не в кавычках, а в квадратных ([o]) или косых (/o/) скобках.

therealmoronto Oct 29 2018 at 02:41

Если бы рассматривалось какое-то конкретное слово, то об этом в статье было указано. Этого в статье не было, тогда какие могут быть вопросы?

Bhudh Oct 29 2018 at 11:12

Вы хотите сказать, что генерируете абстрактную гиперфонему O, которая звучит непонятно где и непонятно в каком контексте?

therealmoronto Oct 30 2018 at 04:59

Я хочу сказать, что фонема /О/ рассматривалась вне каких либо слов, которые могут ее содержать. Просто записали человека, который произнес данную фонему, далее работали с этой записью.

Bhudh Oct 30 2018 at 10:49

Невозможно произнести фонему. Фонема — это абстракция, множество аллофонов.
Произнести можно какой-либо её аллофон.
В данном случае это был аллофон, получающийся в ударном слоге ['o] или ['ʔo], смотря как человек произнёс.
А может быть, он вообще произнёс ['ʔɔ] или [ɒ], Вы как, сравнивали с аллофонами, которые можно выделить из различных слов?

therealmoronto Nov 1 2018 at 04:11

Записали то, как человек произнес букву «О» (звук, фонему: в контексте данной статьи неважно как это правильно называется, статья не на тему филологии, а том, как предлагается описывать статически фонему). Задачи сравнивать с «аллофонами» различных слов не было, так как на данном этапе был интерес попробовать описать матмодель. Сейчас работаем над изучением АЧВХ рассматриваемого сигнала, опять же не обостряя внимание на том, какой это «аллофон» фонемы /О/, так как в рамках текущих задач это не является чем-то значимым.

therealmoronto Oct 29 2018 at 02:42

Тем более неточность нотации не такая уж большая