Комментарии 18
Спасибо за статью, как раз то, что хотел почитать, но руки не доходили.
Я правильно понимаю, что можно дообучить таким образом ту же LLaMA на какой-нибудь большой доке и она начнёт ориентироваться в предмете? Или дать очень большой текст (условную войну и мир) и дальше сделать сокращённый пересказ и уточнить детали, пропущенные в нём? Если да, то буду рад разбору задач в будущем, ну или просто ссылкам по теме.
В принципе, да, но мне кажется что в этом нет особого смысла. После выхода клауди 2-100к и гпт-4 32 к, нейронка может за раз скушац ~75к слов, а это примерно в 3 раза меньше чем число слов ВО ВСЕХ произведениях пушкина, так что эту статью можно просто подать внутри промта.
К тому же текстовой модели, работающей в формате диалога тоже хорошо бы подавать данные в таком формате. То есть Инструкция, вопрос - правильный ответ. Так что эту длинную статью придется приобразовать в набор таких вопросов
Преобразовать*
В этом есть прямой смысл, дообучение на локальных данных пользователя. Примерно так это и делается в localGPT или privateGPT
Открытые модели, кушашие столько токенов за раз подтянутся за проприетарщиной, и скоро вы сможете делать то же самое локально!
Эти сетки умеют по-русски?
Есть два ключевых момента:
* В сети есть ембединги для русских слов - необязательно
* Сеть обучалась на текстах на русском - обязательно
При этом наличие хороших эмбедингов не является прям на 100% необходимым. Если их не будет, модель будет кодировать слова "посимвольно" (или 1-2 буквы) и все равно что то поймет
Например GPT-3 плохо кодирует русские слова, но в принципе может на нем.
Claude-2 можно тут (бесплатно, без VPN). В принципе она может говорить на русском, хотя разрабы в нее это не закладывали.
я пользуюсь claude2 на сайте https://claude.ai/chats
очень хорошо, лучше GPT4
Только cladue-100k не умеет нормально в русский язык, да и токенайзер там скорее всего не уложит русские слова в 1-2 токена.
Да. Oobabooga даёт тренировать лору из гуя.
Готовые лоры можно найти на том же huggingface. Если повезёт, в описании буду т даже указаны параметры тренировки. Для большинства хороших лор есть смерженные с основной моделью
Llama.cpp наверное тоже умеет уже.
Для тренировки "руками" (из питона а не гуя) используется например библиотека peft. Во всяком случае ее использовали до появления qlora. Сейчас может на qlora перешли.
а я то подумал что это "LoRa (Long Range) — запатентованная, проприетарная технология модуляции маломощной сети передачи данных со скоростью 0,3-50 кб/с и дальностью от 1 до 15 км." ;)
А как дообучать квантованую int4 llama-подобную модель ? Т.к. кажется способ через llama-gptq и monkeypatch больше не работает, ошибка которую я не смог победить - нет модуля autograd-int4 ;) а fp16 в 24g не влазят. (Да я пробовал ставить llama-gptq с версии из мануала, это помогло пройти предыдущего босса)
Про квантизацию написаны неправильные вещи.
Основная причина использовать int8 - это экономия GPU RAM. С точки зрения финального качества fp16 лучше int8.
LLM.int8/QLoRA - это mixed precision методы, у них нет никаких плюсов с точки зрения скорости работы модели.
QLoRA - это int4, а не int8.
Кто же такая это ваша LoRA