efreelancer2 апр в 10:24

ruGPT3XL идёт в качалку / поднимаем контекст до 8k

Средний

8 мин

6.8K

Машинное обучение * Искусственный интеллектPython * Занимательные задачкиИстория IT

Туториал

Комментарии 4

ENick 2 апр в 11:03

Чтобы Ваша классная работа не выглядела как работа реаниматора, приведите сравнение с другими llm, например Qwen3

efreelancer 2 апр в 11:48

Хорошая идея, но qwen3 наверно из другой весовой категории, всё же ruGPT3XL это foundation-модель уровня GPT2 ну или чуть выше.

Попробую что-нибудь такое эдакое придумать, спасибо.

Shannon 4 апр в 22:09

Отличная работа. На сколько сложно будет добавить поддержку этой модели в Unsloth?

Они недавно выпустили Unsloth Studio, в которой удобный интерфейс для обучения, легче работать с датасетами, благодаря чему в разы проще обучать различные современные модели (Fine-tune, LoRA, QLoRA 4-bit).

efreelancer 5 апр в 08:39

Никогда не пробовал, но думаю не очень сложно, по сути своей это простая GPT2 с улучшенным механизмом внимания, посмотрю что можно сделать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий