Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers / Comments / Habr

comerc Dec 26 2023 at 12:39

На faster-whisper есть утилитка для конвертации whisper-моделей:

$ ct2-transformers-converter --model mitchelldehaven/whisper-medium-ru --output_dir mitchelldehaven/whisper-medium-ru --quantization int8

Перепробовал всё, что нашёл. Печалька:

from faster_whisper import WhisperModel

# artyomboyko/whisper-small-ru-v2 - ошибки, но с пунктуацией
# artyomboyko/whisper-base-fine_tuned-ru - ошибки, но с пунктуацией
# mitchelldehaven/whisper-medium-ru - лучший результат, без пунктуации
# mitchelldehaven/whisper-large-v2-ru - медленно и ошибки, без пунктуации
# lorenzoncina/whisper-small-ru - ошибки, но с пунктуацией
# lorenzoncina/whisper-medium-ru - ошибки, но с пунктуацией
# AlanRobotics/whisper-tiny-ru ??
# gggggggg123/whisper-small-ru-golos ??
# sanchit-gandhi/whisper-small-ru-1k-steps - ошибки, но с пунктуацией
# Kolbaster/whisper-medium-ru ??
# Shirali/whisper-small-ru - ошибки, но с пунктуацией
# erlandekh/whisper-small-russian - ошибки, но с пунктуацией

model_size = "mitchelldehaven/whisper-medium-ru"

model = WhisperModel(model_size, device="cpu", compute_type="int8") # cpu_threads=10, 

segments, info = model.transcribe(
    "audio.wav",
    language="ru",
    beam_size=5,
    # beam_size=1,
    # temperature=0,
    # suppress_tokens=None,
)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

Что ещё можно сделать? Научиться тюнить самому! Прикрутить GOLOS и SILERO.

Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers

Comments 1

Articles