Привет, статья интересная. Я бы хотел тебе порекомендовать, например pydub, который нарезает аудио дорожку на чанки. speech_recognition библиотека, которая распознает речь, например нарезанные чанки, либо же присмотреться к whisper, нейросеть от OpenAI, которая распознает текст с видео и аудио
Гайд texthero pandas