Комментарии 4
Исходный код: https://github.com/virex-84/LLMGPT2
Добавил выбор всех доступных "ускорителей" на выбор при запуске программы: CPU, OpenCL, CUDA.
Скрытый текст

Анализ корпуса - показывает какую модель можно сделать на основе данного корпуса.
Скрытый текст

Так же добавил авто-конфигуратор модели: конфигурация модели создается исходя из текущего корпуса.
Ну и собственно все классы были оптимизированы для ускорения обучения.
Два чая этому господину :-)
Это же просто модель, которая выучила все немногочисленные диалоги?
Если что то вне этих диалогов задать то будет необъяснимый набор букв в ответе?
Это реализация gpt-2 архитектуры использующая для обучения OpenCL (CUDA, CPU), с возможностью экспорта в gguf. Для наглядности была выбрана минимально возможная конфигурация, что бы любой мог повторить обучение с нуля на своем железе. Вне этих диалогов будет мусор.
Но никто не мешает вам увеличить конфигурацию и корпус, и получить более осмысленную модель.
З.Ы. на github кто-то уже попробовал обучить микро модель на Nvidia RTX 3090, через CUDA.
Исходный код: https://github.com/virex-84/LLMGPT2
Добавил выбор всех доступных "ускорителей" на выбор при запуске программы: CPU, OpenCL, CUDA.
Скрытый текст

Анализ корпуса - показывает какую модель можно сделать на основе данного корпуса.
Скрытый текст

Так же добавил авто-конфигуратор модели: конфигурация модели создается исходя из текущего корпуса.
Ну и собственно все классы были оптимизированы для ускорения обучения.

Обучение LLM с нуля на c# и экспорт в GGUF. OpenCL против CUDA