Comments 6
Очень интересные статьи, жду продолжения, сам занимался распознаванием эмоций по голосу.
Но мне кажется не хватает более человеческого прикладного объяснения некоторых вещей/фичей/характеристик звука.
Согласен. Тех часть очень подробно описана, но не хватает описания, что в каких случаях можно применять. Выглядит как шпаргалка, которая понятна только автору.
Спасибо!
Звук и анализ аудиоданных - тема сложная, но и интересная.
При прохождении воздуха через голосовые связки возникают вибрации, которые в виде упругих волн распространяются в среде. Каждый звук представляет собой набор волн. Это основной тон - волны гендерной идентификации ( у каждого говорящего базовая частота основного тона индивидуальна и обусловлена особенностями строения гортани, в среднем для мужского голоса она составляет от 80 до 210 Гц, для женского — от 150 до 320 Гц. ). Это волны - обертоны ( призвуки, которые выше основного тона) и волны форманты (распознавание речи) связанные с уровнем частоты голосового тона, которые образуют тембр звука.
Аудиосигнал, как амплитуда ко времени и частоте. Преобразование Фурье разлагает функцию времени (сигнал) на составляющие частоты, которые отображают амплитуду каждой частоты в сигнале. В каждой частоте с помощью признаков (характеристик) анализируем плотность, мощность сигнала, высоту (зависит от частоты (число звуковых колебаний за 1 сек) низкочастотные, среднечастотные, высокочастотные) , длительность, громкость (сила звука, которая определяется амплитудой колебаний: чем она больше, тем звук получается громче), тембр (окраска звука), интенсивность , спектральный состав ( волны основного тона, обертоны, форманты) и другие физические свойства звука в определенный промежуток времени.
Все фичи (характеристики) важны при анализе аудиоданных, так как описывают физические свойства звука: высоту, громкость, тембр и т. д. И все характеристика есть у каждого аудиосигнала. Выбор значимых характеристик зависит от исследователя и той задачи, которую он решает и способа решения.
Для решения своей задачи я использую алгоритм Машинного обучения. У меня в наборе данных - 50000 тысяч аудио записей. И в ручную прослушать записи и найти закономерности просто нереально!
Знание и понимание как выглядит звук и какие признаки (фичи) можно извлечь очень важно для построения модели машинного обучения, чтобы компьютер сам просмотрел 50000 строк и 45 значений в каждой строке (фичи), изучил их, сравнил все фичи и нашел закономерности и далее смог использовать этот опыт для решения той же проблемы в новых ситуациях и на новых данных. Это и есть машинное обучение, которое охватывает статистическую часть искусственного интеллекта.
![](https://habrastorage.org/getpro/habr/upload_files/207/a31/c9d/207a31c9d89ace1176125e2b7fb23da7.png)
Спасибо большое! Тут реально ещё на 4ую часть потянет)
Я просто этим занимался и продолжаю в свободное время, так что чуть чуть понимаю, хотя тоже некоторые вещи подчеркнул.
Но думаю хабрчанам будет очень интересно)
Иногда кажется, что изучая голос человека и пытаясь найти какие то фичи в них, мы подходим не с того конца, а точнее не с того места. Мы берем звук, который образуется после наших губ, причем многие, когда говорят звуковая волна, даже не понимают, что это за волна. А на самом деле это перепад давления или по другому можно сказать количество точек в единичном кубе. Там где в данный момент максимум точек, мы берем как максимум волны, там где их меньше всего - за минимум. И что молекулы воздуха с одной стороны стоят почти на месте, просто качаясь(так же как и волна на воде), но с другой они двигаются, так как человек выдыхает воздух(как будто волна на воде, которая еще и течет).
И как мне кажется, если бы мы попробовали проанализировать как образуется звук с момента, когда воздух начинает выходить из легких и до момента когда покинул губы, нам было проще отличить мужской от женского, смеется или плачет, создавать разные синтезаторы голоса, меняя только основной тон или размеры голосовых связок.
Анализ аудиоданных (часть 2)