Обновить
1

Пользователь

Отправить сообщение

Кажется виспер не лучший вариант для диктовки английского. Как минимум кривое произношение или сильный акцент модель распознать не сможет.

Может быть автору как-то получится запустить новую gemma 4 12b с ее нативным, встроенным в саму модель анализом речи, звуков. В теории это даст большее качество анализа речи, так как можель нарямую работает со звуком.

Ну и для синтеза речи попробовать хороший, хоть и дорогой tts. С крутым произношением и акцентами. Что-то типа qwen3 0.6/2b tts. В теории хорошо говорит на английском и неплохо на русском.

В общем, наверное если гнаться за финальным результатом(обучением английскому), то качество stt/tts может оказаться важнее скорости.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность