• Вы еще не договорили слово “привет”, а мы уже знаем, кто вы
    0
    Добрый день,

    i-векторы не использовали — они не содержат информацию о том, что и как человек говорит, а только о том, кто говорит. Все затевалось для того, чтобы сделать хороший генератор фичей.
  • Pitch-tracking, или определение частоты основного тона в речи, на примерах алгоритмов Praat, YAAPT и YIN
    0
    Спасибо за комментарий! Динамическое программирование используется во всех вышеперечисленных алгоритмах. К сожалению, объем статьи не позволил включить их подробный пересказ, однако вы можете ознакомиться с ними по предоставленным ссылкам.

    Также мы осознанно не обсуждаем нейросетевые решения. Нейросети — другой подход, который в разрезе речевых технологий заслуживает отдельного обсуждения. Было бы интересно их сравнить.

    Создатель алгоритма Google (REAPER), David Talkin, известен как автор статьи 1995 года «A robust algorithm for pitch tracking (RAPT)», на которую опирались создатели YAAPT. Мы не видели статьи с подробным описанием REAPER, но алгоритм опирается на ту же функцию Normalized Cross Correlation (NCCF), которая обсуждается выше.
  • Pitch-tracking, или определение частоты основного тона в речи, на примерах алгоритмов Praat, YAAPT и YIN
    0
    Спасибо за вопрос! На рисунке шкалы не зависимы для спектрограммы и для f0. Поэтому синяя линия не должна накладываться на темные полосы на спектрограмме.