Анализ аудиоданных (часть 2) / Комментарии / Хабр

Gorodach 10 июн 2022 в 07:47

Очень интересные статьи, жду продолжения, сам занимался распознаванием эмоций по голосу.

Но мне кажется не хватает более человеческого прикладного объяснения некоторых вещей/фичей/характеристик звука.

AigizK 10 июн 2022 в 09:08

Согласен. Тех часть очень подробно описана, но не хватает описания, что в каких случаях можно применять. Выглядит как шпаргалка, которая понятна только автору.

tatvch 10 июн 2022 в 15:13

Спасибо!

Звук и анализ аудиоданных - тема сложная, но и интересная.

При прохождении воздуха через голосовые связки возникают вибрации, которые в виде упругих волн распространяются в среде. Каждый звук представляет собой набор волн. Это основной тон - волны гендерной идентификации ( у каждого говорящего базовая частота основного тона индивидуальна и обусловлена особенностями строения гортани, в среднем для мужского голоса она составляет от 80 до 210 Гц, для женского — от 150 до 320 Гц. ). Это волны - обертоны ( призвуки, которые выше основного тона) и волны форманты (распознавание речи) связанные с уровнем частоты голосового тона, которые образуют тембр звука.

Аудиосигнал, как амплитуда ко времени и частоте. Преобразование Фурье разлагает функцию времени (сигнал) на составляющие частоты, которые отображают амплитуду каждой частоты в сигнале. В каждой частоте с помощью признаков (характеристик) анализируем плотность, мощность сигнала, высоту (зависит от частоты (число звуковых колебаний за 1 сек) низкочастотные, среднечастотные, высокочастотные) , длительность, громкость (сила звука, которая определяется амплитудой колебаний: чем она больше, тем звук получается громче), тембр (окраска звука), интенсивность , спектральный состав ( волны основного тона, обертоны, форманты) и другие физические свойства звука в определенный промежуток времени.

Все фичи (характеристики) важны при анализе аудиоданных, так как описывают физические свойства звука: высоту, громкость, тембр и т. д. И все характеристика есть у каждого аудиосигнала. Выбор значимых характеристик зависит от исследователя и той задачи, которую он решает и способа решения.

Для решения своей задачи я использую алгоритм Машинного обучения. У меня в наборе данных - 50000 тысяч аудио записей. И в ручную прослушать записи и найти закономерности просто нереально!

Знание и понимание как выглядит звук и какие признаки (фичи) можно извлечь очень важно для построения модели машинного обучения, чтобы компьютер сам просмотрел 50000 строк и 45 значений в каждой строке (фичи), изучил их, сравнил все фичи и нашел закономерности и далее смог использовать этот опыт для решения той же проблемы в новых ситуациях и на новых данных. Это и есть машинное обучение, которое охватывает статистическую часть искусственного интеллекта.

Gorodach 10 июн 2022 в 15:37

Спасибо большое! Тут реально ещё на 4ую часть потянет)

Я просто этим занимался и продолжаю в свободное время, так что чуть чуть понимаю, хотя тоже некоторые вещи подчеркнул.

Но думаю хабрчанам будет очень интересно)

tatvch 10 июн 2022 в 16:11

Спасибо большое!

AigizK 10 июн 2022 в 18:25

Иногда кажется, что изучая голос человека и пытаясь найти какие то фичи в них, мы подходим не с того конца, а точнее не с того места. Мы берем звук, который образуется после наших губ, причем многие, когда говорят звуковая волна, даже не понимают, что это за волна. А на самом деле это перепад давления или по другому можно сказать количество точек в единичном кубе. Там где в данный момент максимум точек, мы берем как максимум волны, там где их меньше всего - за минимум. И что молекулы воздуха с одной стороны стоят почти на месте, просто качаясь(так же как и волна на воде), но с другой они двигаются, так как человек выдыхает воздух(как будто волна на воде, которая еще и течет).

И как мне кажется, если бы мы попробовали проанализировать как образуется звук с момента, когда воздух начинает выходить из легких и до момента когда покинул губы, нам было проще отличить мужской от женского, смеется или плачет, создавать разные синтезаторы голоса, меняя только основной тон или размеры голосовых связок.

Анализ аудиоданных (часть 2)

Комментарии 6

Публикации