Pull to refresh

Эффект коартикуляции речи и его преодоление при распознавании. Пособие для нейроспецназа

Artificial Intelligence
Sandbox

Что такое коартикуляция



Жуткий зверь по имени «аллофон»


Произнося слова и составляющие их звуки, мы никогда не задумываемся о том, что физически они из себя представляют. Сколько из говорящих на разных языках разумных земных существ пытались записать свою речь и исследовать её на графиках, спектрограммах? Понять и изучить её особенности, выделить закономерности и вообще, узнать о речи больше? Думаю, совсем немногие — в процентном отношении.

Мы просто пользуемся! Причём пользуемся неосознанно.

Мы интуитивно делим речь на звуки, которые записываем буквами, и нам кажется, что звук «а» — это всегда «а», а в слово «мама» есть два абсолютно одинаковых звука «а».

А вот и нет!!! Проведите эксперимент: запишите слово «мама», а потом, с помощью средств обработки аудиозаписи поменяйте слоги местами…
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 3.1K
Comments 21

Скрытые послания в музыке

Sound


Нетрудно вообразить места применения знаний того, как в неявном виде поделиться какой-то информацией, введенной в артефакты массовой культуры. Сегодня в большинстве случаев в скрытии каких-то посланий в музыке нет ровно никакой практической нужды — это лишь приятные бонусы для особенно ярых поклонников музыкальных коллективов. Вплетение посланий в слова песен и меняющиеся краски рисунков в оформлении музыкальных альбомов здесь, конечно, не рассматриваются.

Начнем с простых способов, не имеющих отношения к информатике и вычислительной технике. Наиболее очевидно наложить такие звуки, которые в воспроизведении грампластинки в обратную сторону на бытовом электропроигрывателе или специальной аппаратуре дадут разборчивую человеческую речь.

Бэкмаскинг


Потенциал подобной техники увидел ещё изобретатель фонографа Томас Эдисон, а впервые ею воспользовались пионеры электронной музыки в 50-ых годах прошлого века, хотя, конечно, популяризации приемов бэкмаскинга мы обязаны группе Beatles. В частности, под воздействием марихуаны Леннон прокручивал пленки задом наперед, и полученный звук его очень заинтересовал. Первой песней со скрытым сообщением была Rain.
Читать дальше →
Total votes 163: ↑156 and ↓7 +149
Views 70K
Comments 42

Звук диалапа

IT Standards *Development of communication systems *


Финский инженер Оона Ряйсянен (Oona Räisänen) составила чёткую блок-схему с описанием всех звуков, которые издаёт диалап-модем при установке соединения. Горизонтальной оси соответствует время в секундах, вертикальной — частота звука в герцах.

Описание наложено непосредственно на спектрограмму. Для каждого звука помечен источник (наш модем или чужой) и объяснение, что значит конкретно этот сигнал.
Читать дальше →
Total votes 208: ↑201 and ↓7 +194
Views 132K
Comments 108

Простыми словами о преобразовании Фурье

Mathematics *Data visualization *
Sandbox
Я полагаю что все в общих чертах знают о существовании такого замечательного математического инструмента как преобразование Фурье. Однако в ВУЗах его почему-то преподают настолько плохо, что понимают как это преобразование работает и как им правильно следует пользоваться сравнительно немного людей. Между тем математика данного преобразования на удивление красива, проста и изящна. Я предлагаю всем желающим узнать немного больше о преобразовании Фурье и близкой ему теме того как аналоговые сигналы удается эффективно превращать для вычислительной обработки в цифровые.

image (с) xkcd

Без использования сложных формул и матлаба я постараюсь ответить на следующие вопросы:
  • FT, DTF, DTFT — в чем отличия и как совершенно разные казалось бы формулы дают столь концептуально похожие результаты?
  • Как правильно интерпретировать результаты быстрого преобразования Фурье (FFT)
  • Что делать если дан сигнал из 179 сэмплов а БПФ требует на вход последовательность по длине равную степени двойки
  • Почему при попытке получить с помощью Фурье спектр синусоиды вместо ожидаемой одиночной “палки” на графике вылезает странная загогулина и что с этим можно сделать
  • Зачем перед АЦП и после ЦАП ставят аналоговые фильтры
  • Можно ли оцифровать АЦП сигнал с частотой выше половины частоты дискретизации (школьный ответ неверен, правильный ответ — можно)
  • Как по цифровой последовательности восстанавливают исходный сигнал


Я буду исходить из предположения что читатель понимает что такое интеграл, комплексное число (а так же его модуль и аргумент), свертка функций, плюс хотя бы “на пальцах” представляет себе что такое дельта-функция Дирака. Не знаете — не беда, прочитайте вышеприведенные ссылки. Под “произведением функций” в данном тексте я везде буду понимать “поточечное умножение”

Итак, приступим?
Total votes 203: ↑192 and ↓11 +181
Views 938K
Comments 188

“Восстание МашинLearning” или совмещаем хобби по Data Science и анализу спектров лампочек

Python *Data Mining *Machine learning *
Tutorial
В завершающей статье цикла, посвящённого обучению Data Science с нуля, я делился планами совместить мое старое и новое хобби и разместить результат на Хабре. Поскольку прошлые статьи нашли живой отклик у читателей, я решил не откладывать это надолго.

Итак, на протяжении уже нескольких лет я в свободное время копошусь в вопросах, связанных с освещением и больше всего мне интересны спектры разных источников света, как «пращуры» производных от них характеристик. Но не так давно у меня совершенно случайно появилось еще одно хобби — это машинное обучение и анализ данных, в этом вопросе я абсолютный новичок, и чтобы было веселей делюсь периодически с вами своим обретенным опытом и набитыми «шишками»

Данная статья написана в стиле от новичка-новичкам, поэтому опытные читатели вряд ли, почерпнут для себя, что-то новое и если есть желание решить задачу классификации источников света по спектрам, то им есть смысл сразу взять данные из GitHub

А для тех, у кого нет за плечами громадного опыта, я предложу продолжить наше совместное обучение и в этот раз попробовать взяться за составление задачки машинного обучения, что называется «под себя».

Мы пройдем с вами путь от попытки понять где можно применить даже небольшие знания по ML (которые можно получить из базовых книг и курсов), до решения непосредственно самой задачи классификации и мыслей о том «что теперь со всем этим делать?!»

Милости прошу всех под кат.


Читать дальше →
Total votes 10: ↑9 and ↓1 +8
Views 9.3K
Comments 2

Фотокамера для метана

Photographic equipment Chemistry Ecology

Насыщенность красного соответствует превышению концентрации метана над уровнем окружающей среды. На правой фотографии — вентилируемый коровник

Метан (CH4) — один из самых важных энергоносителей, ценный ресурс и исключительно вредный парниковый газ: его парниковый эффект в 25 раз больше, чем у углекислого газа. В то же время масштабные выбросы метана трудно предсказуемы, их тяжело обнаружить. Газ не имеет цвета и запаха, так что даже утечка метана в помещении может пройти незамеченной. Что характерно, до сих пор не существовало дистанционных детекторов метана с высокой чувствительностью. Теперь есть.

Группа учёных из Стокгольмского и Линчепингского университетов (Швеция) разработали специальный дистанционный детектор HyperCam Methane, который работает по принципу фото- и видеокамеры. На экране метан окрашивается в красный цвет и очень хорошо заметен.
Читать дальше →
Total votes 12: ↑10 and ↓2 +8
Views 7.4K
Comments 16

Невероятно эффектная цветомузыка на Arduino и светодиодах

DIY Sound
С наступающим! Приближается Новый год, а значит, пора срочно создавать настроение! Ну и как всегда в это время года рождаются десятки электронных схем различных цветомузыкальных установок.

Чего только самобытные мастера не придумают. От трехцветных моргалок до лазерных многолучевых установок с управлением по MIDI интерфейсу.



Как большой поклонник, так называемых адресных светодиодов, хочу показать вам очень простую и удивительную цветомузыку. Я вообще такой ни разу не видел. Пока не собрал за один вечер. Итак, визуализатор звука!
Total votes 51: ↑46 and ↓5 +41
Views 145K
Comments 116

Вы еще не договорили слово “привет”, а мы уже знаем, кто вы

Neurodata Lab corporate blog Algorithms *Machine learning *Popular science Sound
Это может делать наша нейросеть, распознающая человека по одному произнесенному слогу. Однако тема этой статьи не касается напрямую идентификации по голосу, хотя и будет связана с ней. Мы расскажем о нейросетевых фичах, так называемых d-vector, которые можно использовать в задачах обработки звука: от верификации до распознавания речи и эмоций.

image

Читать дальше →
Total votes 30: ↑26 and ↓4 +22
Views 9.4K
Comments 8

Как нейронная сеть SincNet выделяет значимые частоты в звуке через Back Propagation

Python *Machine learning *Sound

Недавно вышла одна очень интересная статья "Speaker Recognition from raw waveform with SincNet", в которой была описана end-to-end архитектура нейронной сети для распознавания говорящего по голосу. Ключевая особенность этой архитектуры — специальные одномерные сверточные слои, которые имеют всего два параметра с четкой интерпретацией. Интерпретируемость параметров нейронной сети — дело довольно затруднительное, поэтому эта статья привлекла мой интерес.



Если заинтересовало описание идеи этой статьи, а также почему эта идея близка по смыслу к построению мел-спектрограмм, то милости прошу под кат.

Читать дальше →
Total votes 9: ↑9 and ↓0 +9
Views 12K
Comments 8

Рисуем звук

JavaScript *Algorithms *Data visualization *Sound WebAssembly *
Пять лет назад на Хабре была опубликована статья «Печать и воспроизведение звука на бумаге» — о системе создания и проигрывания спектрограмм. Затем, полтора года назад Meklon опубликовал квест, в котором такая чёрно-белая логарифмическая спектрограмма стала одним из этапов. По авторскому замыслу, её надо было распечатать на принтере, отсканировать смартфоном с приложением-проигрывателем, и воспользоваться таким образом «надиктованным» паролем.


У меня в тот момент не было в досягаемости ни принтера, ни смартфона, так что меня заинтересовали два аспекта задачи:

  1. Как проще всего расшифровать спектрограмму без дополнительных устройств и без дополнительного софта — желательно, прямо в браузере?
  2. Можно ли её расшифровать вообще без софта — «на глаз»?

Читать дальше →
Total votes 25: ↑25 and ↓0 +25
Views 16K
Comments 14

Как преобразовать аудиоданные в изображения

SkillFactory corporate blog Python *Machine learning *Lifehacks for geeks Sound
Translation
Tutorial

Относитесь к обработке звука, как к компьютерному зрению, и используйте аудиоданные в моделях глубокого обучения.


Закройте глаза и прислушайтесь к звукам вокруг вас. Независимо от того, находитесь ли вы в переполненном офисе, уютном доме или на открытом пространстве, на природе, вы можете понять, где находитесь, по звукам вокруг вас. Слух — одно из пяти основных чувств человека. Звук играет важную роль в нашей жизни. Это значит, что организация и использование значений аудиоданных с помощью глубокого обучения — важный для ИИ процесс в понимании нашего мира. Кроме того, ключевая задача обработки звука — дать компьютерам возможность отличать один звук от другого. Эта возможность позволит вычислительным машинам выполнять самые разные задачи: от обнаружения износа металла на электростанциях до мониторинга и оптимизации топливной экономии автомобилей.

Сегодня, специально к старту нового потока курса по машинному обучению делюсь с вами статьей, в которой авторы, в качестве примера определяют вид птиц по их пению. Они находят в записях, сделанных в естественных условиях, фрагменты с пением птиц, и классифицируют виды. Преобразовав аудиоданные в данные изображений и применив модели компьютерного зрения, авторы этой статьи получили серебряную медаль (как лучшие 2 %) на соревновании Kaggle Cornell Birdcall Identification.


Приятного чтения!
Total votes 30: ↑25 and ↓5 +20
Views 7.9K
Comments 6

Тональное качество вибраций, или Почему барабаны не прямоугольные?

SkillFactory corporate blog Mathematics *Popular science Physics Sound
Translation

У науки есть огромное, бесконечное число достоинств, и одно из них состоит в том, что именно она способна кратко, точно и ёмко ответить на самые неожиданные в своей простоте, детские вопросы. Например: «Почему барабан круглый?» Если у вас есть дети или вы сами в детстве задавались этим вопросом, то в этом переводе, которым мы решили поделиться к старту флагманского курса о Data Science, вы найдёте два ответа: первый — подробный, в формулах, второй — краткий, понятный ребёнку ответ.

Читать далее
Total votes 4: ↑3 and ↓1 +2
Views 5.7K
Comments 11

Анализ аудиоданных (часть 1)

Python *Programming *Data visualization *Machine learning *Sound
Tutorial

Каждый аудиосигнал содержит характеристики. Из MFCC (Мел-кепстральных коэффициентов), Spectral Centroid (Спектрального центроида) и Spectral Rolloff (Спектрального спада) я провела анализ аудиоданных и извлекла характеристики в виде среднего значения, стандартного отклонения и skew (наклон) с помощью библиотеки librosa.

Для классификации “живого” голоса (класс 1) и его отделению от синтетического/конвертированного/перезаписанного голоса (класс 2) я использовала алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов. SVM работает путем сопоставления данных с многомерным пространством функций, чтобы точки данных можно было классифицировать, даже если данные не могут быть линейно разделены иным образом. Для работы я использовала математическую функцию, используемой для преобразования (известна как функция ядра) - RBF (радиальную базисную функцию).

В первой части анализа аудиоданных разберем:

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 4.8K
Comments 8

Спектрометр из смартфона, картона и осколка DVD-диска: смотрим на спектры лампочек, фонариков, солнца

Samsung corporate blog DIY
Tutorial

Всем привет! Продолжаем придумывать, как можно использовать устаревший смартфон в новом качестве. Эта статья подготовлена по материалам второго сезона видеокурса “Galaxy Upcycling - новая жизнь старого смартфона”. В  уроках первого сезона мы уже сделали 3D-голограмму, проектор (и написали об этом статью на Хабр), микроскоп, часы, гирлянду, а сегодня делаем еще один исследовательский прибор.

Наша новая тема - любительский спектрометр из смартфона. Это отличный наглядный эксперимент по физике, который может быть интересен как учителям, так и школьникам. Вы могли читать в учебнике, что такое длина волны, а теперь мы “пощупаем” длину волны самостоятельно.

Читать далее
Total votes 113: ↑113 and ↓0 +113
Views 16K
Comments 10