Думаю по музыкальным клипам ждать еще долго, т.к. распознать разговорную речь и распознать текст песни, которую могут петь совершенно в разном ритме/скорости/с акцентом/сленгом/коверканьем слов и фраз для рифмы, да еще на фоне музыкального сопровождения - задачи ИМХО не сопоставимые даже по сложности.
Посмотрим.
Ведь с речью тоже много заморочек - интонации, выговоры, особые произношения, дефекты речи.
Жду с нетерпением службу которая будет разбирать и осуществлять поиск по гитарным риффам))
На YouTube появился полнотекстовый поиск по видео