Кажется виспер не лучший вариант для диктовки английского. Как минимум кривое произношение или сильный акцент модель распознать не сможет.
Может быть автору как-то получится запустить новую gemma 4 12b с ее нативным, встроенным в саму модель анализом речи, звуков. В теории это даст большее качество анализа речи, так как можель нарямую работает со звуком.
Ну и для синтеза речи попробовать хороший, хоть и дорогой tts. С крутым произношением и акцентами. Что-то типа qwen3 0.6/2b tts. В теории хорошо говорит на английском и неплохо на русском.
В общем, наверное если гнаться за финальным результатом(обучением английскому), то качество stt/tts может оказаться важнее скорости.
Кажется виспер не лучший вариант для диктовки английского. Как минимум кривое произношение или сильный акцент модель распознать не сможет.
Может быть автору как-то получится запустить новую gemma 4 12b с ее нативным, встроенным в саму модель анализом речи, звуков. В теории это даст большее качество анализа речи, так как можель нарямую работает со звуком.
Ну и для синтеза речи попробовать хороший, хоть и дорогой tts. С крутым произношением и акцентами. Что-то типа qwen3 0.6/2b tts. В теории хорошо говорит на английском и неплохо на русском.
В общем, наверное если гнаться за финальным результатом(обучением английскому), то качество stt/tts может оказаться важнее скорости.