Comments 3
У вас получилось использовать результаты ваших тестов в практическом применении?
На каком железе и какую модель используете?
Ещё попробуйте faster-whisper
from faster_whisper import WhisperModel from time import time model_size = "tiny" or run on CPU with INT8
model = WhisperModel(model_size, device="cpu", compute_type="int8")
ts=time()
segments, info = model.transcribe("welcome_.wav",language="ru", beam_size=5)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
print(time() -ts)
Detected language 'ru' with probability 1.000000
[0.00s -> 2.26s] Добро пожаловать в синтез речи.
[2.26s -> 4.26s] В welcome to the World of the Switch синтез.
4.705834627151489
Действительно, хороший результат!
Vosk vs Whisper — сравнение на raspberry pi 4b