Тестил на книгах, но там свои проблемы - стиль слишком далёк от живого языка, а у части контента содержание специфичное 💀. Жёсткая фильтрация оставила бы слишком мало. Для задачи с персонажем нужен был именно неформальный язык, поэтому и пошёл в сторону блогов.
Примеров генерации нет, к сожалению. Запуски были давно, чекпоинты не сохранились, остались только графики loss.
По твоему опыту - интересно. Датасет в parquet со сжатием, реальный объём текста скорее всего ~15 гб, но оценить сколько это всё таки в токенах сложно из-за дополнительных полей. По Chinchilla нужно 5B токенов для 0.25B модели, и если за 3 часа всё это не прошло, модель явно недообучена. Отсюда и результат "что-то аппроксимировано". Интересно было бы посмотреть что получится с несколькими эпохами или большим датасетом.
Тестил на книгах, но там свои проблемы - стиль слишком далёк от живого языка, а у части контента содержание специфичное 💀. Жёсткая фильтрация оставила бы слишком мало. Для задачи с персонажем нужен был именно неформальный язык, поэтому и пошёл в сторону блогов.
Примеров генерации нет, к сожалению. Запуски были давно, чекпоинты не сохранились, остались только графики loss.
По твоему опыту - интересно. Датасет в parquet со сжатием, реальный объём текста скорее всего ~15 гб, но оценить сколько это всё таки в токенах сложно из-за дополнительных полей. По Chinchilla нужно 5B токенов для 0.25B модели, и если за 3 часа всё это не прошло, модель явно недообучена. Отсюда и результат "что-то аппроксимировано". Интересно было бы посмотреть что получится с несколькими эпохами или большим датасетом.
Попробуй через Network:
Получи URL через
eval_jsи открой его в браузере (вкладку с Colab не закрывай)Открой DevTools (F12) -> вкладка Network
Обнови страницу (F5) - появятся запросы
Кликни на последний запрос к твоему домену (
prod.colab.dev)Вкладка Headers -> раздел Request Headers -> найди поле
cookie, или вкладка Cookies -> там будетcolab-runtime-proxy-tokenотдельной строкойТам будет
colab-runtime-proxy-token=...- это и есть нужный токенДа, нужны файлы оригинала, потому что это лишь надстройка (заменяется только LLM-часть).
Скачай базовую модель:
И GGUF положи рядом. При инициализации укажи оба пути:
Измерил TTFA на T4: 5.5с -> 1.6с (ускорение ~3.5x)