Если сносного качества можно достичь на слабой видеокарте и небольшом датасете, то боюсь представить возможности тех, у кого есть время и деньги. Причем если учить сеть только на русской речи, качество получается существенно выше.
Особенно забавляют новости про индетификацию пользователей в банках по голосу
И может помочь iPavlov.
Но, возможно, есть что-то и лучше.
Особенно забавляют новости про индетификацию пользователей в банках по голосу