Pull to refresh

Comments 3

По моему опыту, датасет MELD довольно зашумленный для таких целей, там достаточно много примеров, когда в одном отрезке говорят несколько разных людей и бывает, что текст аннотации не совпадает с реальным высказыванием. Плюс в почти каждом отрезке есть закадровый смех. Можно попробовать добавить датасеты IEMOCAP или CMU_MOSI, CMU_MOSEI.

Спасибо, очень интересная статья.

Заметил небольшую неточность.

А уже на выходе мы получаем вероятность успеха звонка по звуку.

Это не совсем верно. Софтмакс/сигмоида не переводит магическим образом логиты в вероятности. Вот тут можно кратенько узнать почему.

Я работаю над распознанием эмоций в аудио. На практике - один только MFCC даёт значительно меньше точность (в эмоциях у меня получалось на 15-20% меньше) чем набор он же, но в совокупности с ещё какими-либо признаками, извлечёнными из аудио-сигнала. Я работаю с признаками из библиотеки Librosa, но это не важно, можно хоть самому функции обработки сигнала писать под задачу. Да и при расчёте MFCC можно поэкспериментировать с разными параметрами преобразования Фурье, в зависимости от цели задачи и затрагиваемой психологии поведения человека в диалоге.

С аугментацией тоже аккуратно нужно... Вы писали, что реплики нарезали - интересно, если последовательность и реакции в диалоге не влияют. В дополнение можно рандомно амплетуды увеличить/уменьшить в случайных (или во всех) частях аудио, добавить шума, совместить амплетуду и шум - получится х4.

Sign up to leave a comment.