Comments 1
На faster-whisper есть утилитка для конвертации whisper-моделей:
$ ct2-transformers-converter --model mitchelldehaven/whisper-medium-ru --output_dir mitchelldehaven/whisper-medium-ru --quantization int8
Перепробовал всё, что нашёл. Печалька:
from faster_whisper import WhisperModel
# artyomboyko/whisper-small-ru-v2 - ошибки, но с пунктуацией
# artyomboyko/whisper-base-fine_tuned-ru - ошибки, но с пунктуацией
# mitchelldehaven/whisper-medium-ru - лучший результат, без пунктуации
# mitchelldehaven/whisper-large-v2-ru - медленно и ошибки, без пунктуации
# lorenzoncina/whisper-small-ru - ошибки, но с пунктуацией
# lorenzoncina/whisper-medium-ru - ошибки, но с пунктуацией
# AlanRobotics/whisper-tiny-ru ??
# gggggggg123/whisper-small-ru-golos ??
# sanchit-gandhi/whisper-small-ru-1k-steps - ошибки, но с пунктуацией
# Kolbaster/whisper-medium-ru ??
# Shirali/whisper-small-ru - ошибки, но с пунктуацией
# erlandekh/whisper-small-russian - ошибки, но с пунктуацией
model_size = "mitchelldehaven/whisper-medium-ru"
model = WhisperModel(model_size, device="cpu", compute_type="int8") # cpu_threads=10,
segments, info = model.transcribe(
"audio.wav",
language="ru",
beam_size=5,
# beam_size=1,
# temperature=0,
# suppress_tokens=None,
)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
Что ещё можно сделать? Научиться тюнить самому! Прикрутить GOLOS и SILERO.
Sign up to leave a comment.
Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers