Обновить

Комментарии 4

ЗакрепленныеЗакреплённые комментарии

Исходный код: https://github.com/virex-84/LLMGPT2

Добавил выбор всех доступных "ускорителей" на выбор при запуске программы: CPU, OpenCL, CUDA.

Скрытый текст

Анализ корпуса - показывает какую модель можно сделать на основе данного корпуса.

Скрытый текст

Так же добавил авто-конфигуратор модели: конфигурация модели создается исходя из текущего корпуса.

Ну и собственно все классы были оптимизированы для ускорения обучения.

Два чая этому господину :-)

Это же просто модель, которая выучила все немногочисленные диалоги?
Если что то вне этих диалогов задать то будет необъяснимый набор букв в ответе?

Это реализация gpt-2 архитектуры использующая для обучения OpenCL (CUDA, CPU), с возможностью экспорта в gguf. Для наглядности была выбрана минимально возможная конфигурация, что бы любой мог повторить обучение с нуля на своем железе. Вне этих диалогов будет мусор.

Но никто не мешает вам увеличить конфигурацию и корпус, и получить более осмысленную модель.

З.Ы. на github кто-то уже попробовал обучить микро модель на Nvidia RTX 3090, через CUDA.

Исходный код: https://github.com/virex-84/LLMGPT2

Добавил выбор всех доступных "ускорителей" на выбор при запуске программы: CPU, OpenCL, CUDA.

Скрытый текст

Анализ корпуса - показывает какую модель можно сделать на основе данного корпуса.

Скрытый текст

Так же добавил авто-конфигуратор модели: конфигурация модели создается исходя из текущего корпуса.

Ну и собственно все классы были оптимизированы для ускорения обучения.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации