Обновить
16K+
4

Пользователь

19
Рейтинг
2
Подписчики
Отправить сообщение

Тестил на книгах, но там свои проблемы - стиль слишком далёк от живого языка, а у части контента содержание специфичное 💀. Жёсткая фильтрация оставила бы слишком мало. Для задачи с персонажем нужен был именно неформальный язык, поэтому и пошёл в сторону блогов.

Примеров генерации нет, к сожалению. Запуски были давно, чекпоинты не сохранились, остались только графики loss.

По твоему опыту - интересно. Датасет в parquet со сжатием, реальный объём текста скорее всего ~15 гб, но оценить сколько это всё таки в токенах сложно из-за дополнительных полей. По Chinchilla нужно 5B токенов для 0.25B модели, и если за 3 часа всё это не прошло, модель явно недообучена. Отсюда и результат "что-то аппроксимировано". Интересно было бы посмотреть что получится с несколькими эпохами или большим датасетом.

Попробуй через Network:

  1. Получи URL через eval_js и открой его в браузере (вкладку с Colab не закрывай)

  2. Открой DevTools (F12) -> вкладка Network

  3. Обнови страницу (F5) - появятся запросы

  4. Кликни на последний запрос к твоему домену (prod.colab.dev)

  5. Вкладка Headers -> раздел Request Headers -> найди поле cookie, или вкладка Cookies -> там будет colab-runtime-proxy-token отдельной строкой

  6. Там будет colab-runtime-proxy-token=... - это и есть нужный токен

Да, нужны файлы оригинала, потому что это лишь надстройка (заменяется только LLM-часть).

Скачай базовую модель:

from huggingface_hub import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')

И GGUF положи рядом. При инициализации укажи оба пути:

cosyvoice = AutoModel(
    model_dir='pretrained_models/Fun-CosyVoice3-0.5B',
    load_llama_cpp=True,
    gguf_model_path='pretrained_models/cosyvoice_llm_f16.gguf'
)

Измерил TTFA на T4: 5.5с -> 1.6с (ускорение ~3.5x)

Информация

В рейтинге
398-й
Зарегистрирован
Активность

Специализация

ML разработчик