freQuensy2312 июл 2023 в 12:00

Кто же такая это ваша LoRA

Средний

5 мин

122K

Математика * Машинное обучение *

Обзор

+36

Комментарии 18

bfDeveloper 12 июл 2023 в 12:56

Спасибо за статью, как раз то, что хотел почитать, но руки не доходили.

Я правильно понимаю, что можно дообучить таким образом ту же LLaMA на какой-нибудь большой доке и она начнёт ориентироваться в предмете? Или дать очень большой текст (условную войну и мир) и дальше сделать сокращённый пересказ и уточнить детали, пропущенные в нём? Если да, то буду рад разбору задач в будущем, ну или просто ссылкам по теме.

freQuensy23 12 июл 2023 в 13:12

В принципе, да, но мне кажется что в этом нет особого смысла. После выхода клауди 2-100к и гпт-4 32 к, нейронка может за раз скушац ~75к слов, а это примерно в 3 раза меньше чем число слов ВО ВСЕХ произведениях пушкина, так что эту статью можно просто подать внутри промта.

К тому же текстовой модели, работающей в формате диалога тоже хорошо бы подавать данные в таком формате. То есть Инструкция, вопрос - правильный ответ. Так что эту длинную статью придется приобразовать в набор таких вопросов

freQuensy23 12 июл 2023 в 13:13

Преобразовать*

nbkgroup 12 июл 2023 в 20:11

В этом есть прямой смысл, дообучение на локальных данных пользователя. Примерно так это и делается в localGPT или privateGPT

freQuensy23 13 июл 2023 в 00:42

Открытые модели, кушашие столько токенов за раз подтянутся за проприетарщиной, и скоро вы сможете делать то же самое локально!

dilukhin 30 июл 2023 в 10:04

Эти сетки умеют по-русски?

freQuensy23 30 июл 2023 в 11:28

Есть два ключевых момента:
* В сети есть ембединги для русских слов - необязательно
* Сеть обучалась на текстах на русском - обязательно

При этом наличие хороших эмбедингов не является прям на 100% необходимым. Если их не будет, модель будет кодировать слова "посимвольно" (или 1-2 буквы) и все равно что то поймет

Например GPT-3 плохо кодирует русские слова, но в принципе может на нем.
Claude-2 можно тут (бесплатно, без VPN). В принципе она может говорить на русском, хотя разрабы в нее это не закладывали.

artishevcom 16 авг 2023 в 11:20

я пользуюсь claude2 на сайте https://claude.ai/chats

очень хорошо, лучше GPT4

Kristaller486 24 июл 2023 в 17:06

Только cladue-100k не умеет нормально в русский язык, да и токенайзер там скорее всего не уложит русские слова в 1-2 токена.

Guul 30 июл 2023 в 17:50

Да. Oobabooga даёт тренировать лору из гуя.
Готовые лоры можно найти на том же huggingface. Если повезёт, в описании буду т даже указаны параметры тренировки. Для большинства хороших лор есть смерженные с основной моделью
Llama.cpp наверное тоже умеет уже.
Для тренировки "руками" (из питона а не гуя) используется например библиотека peft. Во всяком случае ее использовали до появления qlora. Сейчас может на qlora перешли.

NutsUnderline 13 июл 2023 в 05:58

а я то подумал что это "LoRa (Long Range) — запатентованная, проприетарная технология модуляции маломощной сети передачи данных со скоростью 0,3-50 кб/с и дальностью от 1 до 15 км." ;)

U-Janus 13 июл 2023 в 06:27

Ха ха, так же подумал. А тут оказывается дрова лежат.

Заодно передаю привет мобильной версии Хабра без ката.

freQuensy23 17 июл 2023 в 15:31

Я когда сам пытался разобраться тож постоянно натыкался на статьи про это

Opaspap 13 июл 2023 в 07:50

А как дообучать квантованую int4 llama-подобную модель ? Т.к. кажется способ через llama-gptq и monkeypatch больше не работает, ошибка которую я не смог победить - нет модуля autograd-int4 ;) а fp16 в 24g не влазят. (Да я пробовал ставить llama-gptq с версии из мануала, это помогло пройти предыдущего босса)

freQuensy23 15 июл 2023 в 18:18

Проблема именно в квантовании или в LoRA?

Opaspap 16 июл 2023 в 03:30

в том, что 4bit модель с настройками, которые должны подходить для использования и создания lora, загрузить не получается :) А для запуска не квантованной модели нет железа.

Kristaller486 24 июл 2023 в 17:12

Для обучения в 4bit нужно использовать QLoRA

Takagi 13 июл 2023 в 08:25

Про квантизацию написаны неправильные вещи.

Основная причина использовать int8 - это экономия GPU RAM. С точки зрения финального качества fp16 лучше int8.
LLM.int8/QLoRA - это mixed precision методы, у них нет никаких плюсов с точки зрения скорости работы модели.
QLoRA - это int4, а не int8.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий