Обновить

ruGPT3XL идёт в качалку / поднимаем контекст до 8k

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.7K
Всего голосов 6: ↑6 и ↓0+8
Комментарии4

Комментарии 4

Чтобы Ваша классная работа не выглядела как работа реаниматора, приведите сравнение с другими llm, например Qwen3

Хорошая идея, но qwen3 наверно из другой весовой категории, всё же ruGPT3XL это foundation-модель уровня GPT2 ну или чуть выше.

Попробую что-нибудь такое эдакое придумать, спасибо.

Отличная работа. На сколько сложно будет добавить поддержку этой модели в Unsloth?

Они недавно выпустили Unsloth Studio, в которой удобный интерфейс для обучения, легче работать с датасетами, благодаря чему в разы проще обучать различные современные модели (Fine-tune, LoRA, QLoRA 4-bit).

Никогда не пробовал, но думаю не очень сложно, по сути своей это простая GPT2 с улучшенным механизмом внимания, посмотрю что можно сделать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации