Как стать автором
Обновить
-11
Карма
0
Рейтинг

Пользователь

Вы еще не договорили слово “привет”, а мы уже знаем, кто вы

Добрый день,

i-векторы не использовали — они не содержат информацию о том, что и как человек говорит, а только о том, кто говорит. Все затевалось для того, чтобы сделать хороший генератор фичей.

Pitch-tracking, или определение частоты основного тона в речи, на примерах алгоритмов Praat, YAAPT и YIN

Спасибо за комментарий! Динамическое программирование используется во всех вышеперечисленных алгоритмах. К сожалению, объем статьи не позволил включить их подробный пересказ, однако вы можете ознакомиться с ними по предоставленным ссылкам.

Также мы осознанно не обсуждаем нейросетевые решения. Нейросети — другой подход, который в разрезе речевых технологий заслуживает отдельного обсуждения. Было бы интересно их сравнить.

Создатель алгоритма Google (REAPER), David Talkin, известен как автор статьи 1995 года «A robust algorithm for pitch tracking (RAPT)», на которую опирались создатели YAAPT. Мы не видели статьи с подробным описанием REAPER, но алгоритм опирается на ту же функцию Normalized Cross Correlation (NCCF), которая обсуждается выше.

Pitch-tracking, или определение частоты основного тона в речи, на примерах алгоритмов Praat, YAAPT и YIN

Спасибо за вопрос! На рисунке шкалы не зависимы для спектрограммы и для f0. Поэтому синяя линия не должна накладываться на темные полосы на спектрограмме.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность