Ferraro Apr 25 at 17:25

Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x

Medium

3 min

11K

Machine learning * SoundOpen source *

Tutorial

From sandbox

Comments 5

OverFitter Apr 27 at 06:07

Интересная статья. Замеряли только RTF? Как поменялся TTFA (или TTFT)?

Ferraro Apr 27 at 07:41

Измерил TTFA на T4: 5.5с -> 1.6с (ускорение ~3.5x)

alexfadeev123 Apr 27 at 14:39

Использование: AutoModel(

Я в этом не разбираюсь, но так просто с одним файлом gguf оно чёт не заводится. Ему ещё нужен cosyvoice3.yml, а потом оно ещё что-то просить начинает, я так понимаю все файлы из репы исходной модели.

Ferraro Apr 27 at 14:55

Да, нужны файлы оригинала, потому что это лишь надстройка (заменяется только LLM-часть).

Скачай базовую модель:

from huggingface_hub import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')

И GGUF положи рядом. При инициализации укажи оба пути:

cosyvoice = AutoModel(
    model_dir='pretrained_models/Fun-CosyVoice3-0.5B',
    load_llama_cpp=True,
    gguf_model_path='pretrained_models/cosyvoice_llm_f16.gguf'
)

alexfadeev123 Apr 28 at 16:02

Ещё у меня встретилось, что если запустить без llama-cpp (поставить load_llama_cpp=False), то начинает ругаться что в конце промпта нет <|end_of_prompt|>, если добавить в конец текстового поля(тестировал через webui.py), то всё проходит