Pull to refresh

Comments 34

Спасибо, классная статья. Не очень только понял, в чём мотивация использовать SLERP вместо KL дивергенции?

Э, с KL не сходилось, со Slerp лучше сходилось

коричневый - slerp, голубой и зеленый - sum, зеленый и фиолетовый - KL
коричневый - slerp, голубой и зеленый - sum, зеленый и фиолетовый - KL

Интересно. Есть мысли почему? С гладкостью получше?

честно? без понятия. если буду писать paper хочу проверить устойчивость разных вариантов + попробовать clip_ать loss

Судя по тексту и числу ошибок писал его ИИ и человек даже не смотрел, вообще кровь из глаз, хотя бы в гугл доке проверить можно же. Даже в заголовке опечатка.

Плюсую, можно было бы и не класть болт

ну да, текст написал вихрь, еще вопросы?

Вы серьёзно на счёт ИИ? Мне кажется ни одна из существующих сейчас LLM не способна создать такой текст. В нём полно неологизмов и/или сленга, опечаток, авторской орфографии и пунктуации (причём логичной с точки зрения донесения смысла), присутствует смешение английского и русского. Очевидно, что его писал человек.

Вижу повсеместно, что в плохой по тем или иным причинам текст нынче принято кидаться обвинением "как будто GPT писал". Не стоит для каждого не понравившегося Вам блюда в качестве критики указывать, что оно пахнет как тухлятина, потому что в один момент Вашу критику перестанут воспринимать всерьёз.

Тоже подумал - какой ИИ пишет "учиться", "приходиться", "сводиться", но промолчал чтоб не занудствовать. Дали повод таки вставить. :)

Человек бы такие ошибки особенно в заголовке не должен делать. Я знаю что есть разные уровни грамотности, но таки прогнать через Google docs не сложно перед релизом.

И таки выше автор написал что писал вихрь, о чём спор? ) просто я бы на месте автора после ИИ проверил в чём-то перед релизом, и да, хотя бы в конце указал что текст не авторский. Хотя бы для оценки качества ИИ читателями.

А я вот почти на 100%, что человек писал текст, несмотря на слова автора. Думаю это он Вам в пику сказал, потому что так его текст со своеобразным стилем становиться просто жемчужиной генеративного творчества - т.е. он превращает Вашу критику в похвалу. Я уверен вихрь хорош, но он не лучше изначальной модели, а она не способна на такую детализацию или способна, но необходимо на игру с промтом потратить такое количество времени, что быстрее статью самому написать. @alexwortega,только честно, Вы ведь тест писали?

да офк, я очень сильно сомневаюсь что хоть одна сетка напишет нормальный технический текст

да загоните в гугл докс и убедитесь что оне не видит эти ошибки, что флудить то

Спасибо за модель, статью, и в особенности за список доп.чтения в конце.

Для энтузиаста-дилетанта (вроде меня) ваша статья - это огромная возможность понять, что я ещё не знаю, и куда мне дальше читать.

За статью спасибо, но с целом mixtral и прочие llm отлично работают на русском если они от openbuddy team. И дан промт системный Промт на русском.использую 7x8 и полностью доволен.

Основная проблема этих llam/falcon/Mistral там очень мало инфы из русскоязычного сегмента в целом. а уж после квантования и того меньше просто в геометрической прогрессии.

Без Lora от Ильи? И хватает токенайзера? 4bit квантование?

Для каких задач, если не секрет?

Без Лора, 6 бит квантование, в задачах домашнего ассистента и для группы ребят подготовка кода на баше и питоне, и для ещё одной группы( семья) чат бот на каждый день.чуть позже rag запущу по документации локальной. Эта сеть лучшая из 30 тестировавшихся мной, 2е место deepseeker 67b , сайга в конце списка.

Без высоких требований , почти без фейлов если температуру пониже сделать.

я так понял вот это - mixtral-8x7b-instruct-v0.1.Q6_K.gguf

мне почему Сайга от Ильи больше понравилась по адекватности на русском. Я делаю RAG для ответа на вопросы по КоАП

Спасибо, попробовал вот эту: openbuddy-mixtral-7bx8-v16.3-32k.Q3_K_M.gguf.
Все равно для русского как-то Сайга от Ильи получше справляется и быстрее работает. все в целом хорошая модель субъективно

Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.

Спасибо за статью! Только не совсем понятно, что в итоге с железом. Получилось ли запустить на v100 хоть какой-то вариант? И какая конфигурация h100 использовалась?

Привет, да с tensor parallel в fp16 без проблем, просто это довольно медленно. я использовал 5h100 с runpod

взял нативый код из https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct

одна разница загрузил в 4битной версии

# Activate 4-bit precision base model loading
use_4bit = True

# Compute dtype for 4-bit base models
bnb_4bit_compute_dtype = "float16"

# Quantization type (fp4 or nf4)
bnb_4bit_quant_type = "nf4"

# Activate nested quantization for 4-bit base models (double quantization)
use_nested_quant = False

compute_dtype = getattr(torch, bnb_4bit_compute_dtype)

bnb_config = BitsAndBytesConfig(
    load_in_4bit=use_4bit,
    bnb_4bit_quant_type=bnb_4bit_quant_type,
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=use_nested_quant,
)

работает шустр

обновление по попытке решать практические задачи. Авторы, вы молодцы, опыт точно поможет в будущем. Но Mistral Lora от Ильи лучше работает. Ну либо несовместимость с 4 битной версией какая то

да, к сожалению метод обучения ломает модель на инфернсе в квантованном виде, stay tuned будут апдейты

А можете рассказать как вы паралелились между карточками, в случае когда вся модель не влезает на одну (то есть DP/DDP не подходят)? Сейчас бьюсь с deepspeed- но чет оч запарно все вызходит(((

Модель любопытная, но я заглянул в ваши датасеты:

https://huggingface.co/datasets/Vikhrmodels/RP_vsratiy_Hogwarts — это конечно весьма своеобразный подход, но да ладно (и как-то маловато).

https://huggingface.co/datasets/Vikhrmodels/habr_qa_sbs — довольно мусорный датасет который без прочистки даёт кучу мусорных ответов

https://huggingface.co/datasets/Vikhrmodels/Flan_translated_300k — тут ещё больше мусора, очень много бессмысленных текстов, много где ответы вообще никак не связаны с вопросами.

Такие (два последних) датасеты не попортят качество итоговой модели?

Модели не учились на них, они лежат как экспериментальные

На таких как вы держится весь LLM-пром на великом и могучем. Спасибо! Жаль что статья попалась в рекомендации только через неделю после публикации, скорее всего дело в хабах или тэгах - могла и потеряться в инфошуме.

Для нас важно что у русских(сбер, яндекс) моделей на каждые три символа приходится 1 токен, а у Llama/Mistral/Gpt4(в меньшей степени) на ~ КАЖДЫЙ символ приходится токен. 

в gpt-3.5/gpt-4 уверенно 2 русских символа на токен

А есть где то код для воспроизведения? Очень хочется попробовать?

Sign up to leave a comment.

Articles