@alexwortega Jan 23 2024 at 05:43

Вихрь — семейство переведенных русскоязычных LLM

Medium

5 min

45K

Natural Language Processing *

Case

+36

Comments 34

@alex50555 Jan 23 2024 at 06:36

Спасибо, классная статья. Не очень только понял, в чём мотивация использовать SLERP вместо KL дивергенции?

@alexwortega Jan 23 2024 at 07:58

Э, с KL не сходилось, со Slerp лучше сходилось

коричневый - slerp, голубой и зеленый - sum, зеленый и фиолетовый - KL

@alex50555 Jan 23 2024 at 08:16

Интересно. Есть мысли почему? С гладкостью получше?

@alexwortega Jan 23 2024 at 08:40

честно? без понятия. если буду писать paper хочу проверить устойчивость разных вариантов + попробовать clip_ать loss

@dimitrii_z Jan 23 2024 at 06:46

Судя по тексту и числу ошибок писал его ИИ и человек даже не смотрел, вообще кровь из глаз, хотя бы в гугл доке проверить можно же. Даже в заголовке опечатка.

@digtatordigtatorov Jan 23 2024 at 07:25

Плюсую, можно было бы и не класть болт

@alexwortega Jan 23 2024 at 07:57

ну да, текст написал вихрь, еще вопросы?

@NetBUG Jan 23 2024 at 09:21

Продано)

@Apxuej Jan 23 2024 at 08:02

Вы серьёзно на счёт ИИ? Мне кажется ни одна из существующих сейчас LLM не способна создать такой текст. В нём полно неологизмов и/или сленга, опечаток, авторской орфографии и пунктуации (причём логичной с точки зрения донесения смысла), присутствует смешение английского и русского. Очевидно, что его писал человек.

Вижу повсеместно, что в плохой по тем или иным причинам текст нынче принято кидаться обвинением "как будто GPT писал". Не стоит для каждого не понравившегося Вам блюда в качестве критики указывать, что оно пахнет как тухлятина, потому что в один момент Вашу критику перестанут воспринимать всерьёз.

@vagon333 Jan 23 2024 at 11:11

Тоже подумал - какой ИИ пишет "учиться", "приходиться", "сводиться", но промолчал чтоб не занудствовать. Дали повод таки вставить. :)

@dimitrii_z Jan 23 2024 at 16:56

Человек бы такие ошибки особенно в заголовке не должен делать. Я знаю что есть разные уровни грамотности, но таки прогнать через Google docs не сложно перед релизом.

И таки выше автор написал что писал вихрь, о чём спор? ) просто я бы на месте автора после ИИ проверил в чём-то перед релизом, и да, хотя бы в конце указал что текст не авторский. Хотя бы для оценки качества ИИ читателями.

@Apxuej Jan 23 2024 at 17:21

А я вот почти на 100%, что человек писал текст, несмотря на слова автора. Думаю это он Вам в пику сказал, потому что так его текст со своеобразным стилем становиться просто жемчужиной генеративного творчества - т.е. он превращает Вашу критику в похвалу. Я уверен вихрь хорош, но он не лучше изначальной модели, а она не способна на такую детализацию или способна, но необходимо на игру с промтом потратить такое количество времени, что быстрее статью самому написать. @alexwortega,только честно, Вы ведь тест писали?

@alexwortega Jan 23 2024 at 18:55

да офк, я очень сильно сомневаюсь что хоть одна сетка напишет нормальный технический текст

@alexwortega Jan 23 2024 at 18:55

да загоните в гугл докс и убедитесь что оне не видит эти ошибки, что флудить то

@mrise Jan 23 2024 at 22:51

Спасибо за модель, статью, и в особенности за список доп.чтения в конце.

Для энтузиаста-дилетанта (вроде меня) ваша статья - это огромная возможность понять, что я ещё не знаю, и куда мне дальше читать.

@neowisard Jan 24 2024 at 09:24

За статью спасибо, но с целом mixtral и прочие llm отлично работают на русском если они от openbuddy team. И дан промт системный Промт на русском.использую 7x8 и полностью доволен.

Основная проблема этих llam/falcon/Mistral там очень мало инфы из русскоязычного сегмента в целом. а уж после квантования и того меньше просто в геометрической прогрессии.

@vova_sam Jan 24 2024 at 11:50

Без Lora от Ильи? И хватает токенайзера? 4bit квантование?

Для каких задач, если не секрет?

@neowisard Jan 24 2024 at 11:58

Без Лора, 6 бит квантование, в задачах домашнего ассистента и для группы ребят подготовка кода на баше и питоне, и для ещё одной группы( семья) чат бот на каждый день.чуть позже rag запущу по документации локальной. Эта сеть лучшая из 30 тестировавшихся мной, 2е место deepseeker 67b , сайга в конце списка.

Без высоких требований , почти без фейлов если температуру пониже сделать.

@vova_sam Jan 24 2024 at 19:19

я так понял вот это - mixtral-8x7b-instruct-v0.1.Q6_K.gguf

мне почему Сайга от Ильи больше понравилась по адекватности на русском. Я делаю RAG для ответа на вопросы по КоАП

@neowisard Jan 24 2024 at 19:35

Не, эта не всегда адекватна, надо адаптацию от openbuddy, которую отквантовал the bloke , когда сам квантую херня получается , модель потом заикой становится.Вот эту, 16.3 , и 32к контекст

@vova_sam Jan 26 2024 at 21:07

Спасибо, попробовал вот эту: openbuddy-mixtral-7bx8-v16.3-32k.Q3_K_M.gguf.
Все равно для русского как-то Сайга от Ильи получше справляется и быстрее работает. все в целом хорошая модель субъективно

@alexwortega Jan 24 2024 at 13:48

Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.

@rsmustafin Jan 24 2024 at 13:48

Спасибо за статью! Только не совсем понятно, что в итоге с железом. Получилось ли запустить на v100 хоть какой-то вариант? И какая конфигурация h100 использовалась?

@alexwortega Jan 24 2024 at 13:48

Привет, да с tensor parallel в fp16 без проблем, просто это довольно медленно. я использовал 5h100 с runpod

@vova_sam Jan 24 2024 at 19:36

взял нативый код из https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct

одна разница загрузил в 4битной версии

# Activate 4-bit precision base model loading
use_4bit = True

# Compute dtype for 4-bit base models
bnb_4bit_compute_dtype = "float16"

# Quantization type (fp4 or nf4)
bnb_4bit_quant_type = "nf4"

# Activate nested quantization for 4-bit base models (double quantization)
use_nested_quant = False

compute_dtype = getattr(torch, bnb_4bit_compute_dtype)

bnb_config = BitsAndBytesConfig(
    load_in_4bit=use_4bit,
    bnb_4bit_quant_type=bnb_4bit_quant_type,
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=use_nested_quant,
)

работает шустр

@vova_sam Jan 25 2024 at 18:23

обновление по попытке решать практические задачи. Авторы, вы молодцы, опыт точно поможет в будущем. Но Mistral Lora от Ильи лучше работает. Ну либо несовместимость с 4 битной версией какая то

@alexwortega Jan 25 2024 at 22:20

да, к сожалению метод обучения ломает модель на инфернсе в квантованном виде, stay tuned будут апдейты

@freQuensy23 Jan 25 2024 at 11:00

А можете рассказать как вы паралелились между карточками, в случае когда вся модель не влезает на одну (то есть DP/DDP не подходят)? Сейчас бьюсь с deepspeed- но чет оч запарно все вызходит(((

@alexwortega Jan 25 2024 at 22:21

Привет! https://huggingface.co/docs/accelerate/concept_guides/big_model_inference tensor paralel встроенный в accelerate умеет это решать сильно проще чем deepspeed. к слову тренить так тоже можно!

@EvilFox Jan 28 2024 at 13:59

Модель любопытная, но я заглянул в ваши датасеты:

https://huggingface.co/datasets/Vikhrmodels/RP_vsratiy_Hogwarts — это конечно весьма своеобразный подход, но да ладно (и как-то маловато).

https://huggingface.co/datasets/Vikhrmodels/habr_qa_sbs — довольно мусорный датасет который без прочистки даёт кучу мусорных ответов

https://huggingface.co/datasets/Vikhrmodels/Flan_translated_300k — тут ещё больше мусора, очень много бессмысленных текстов, много где ответы вообще никак не связаны с вопросами.

Такие (два последних) датасеты не попортят качество итоговой модели?

@alexwortega Jan 28 2024 at 19:43

Модели не учились на них, они лежат как экспериментальные

@CodeDroidX Jan 30 2024 at 12:40

На таких как вы держится весь LLM-пром на великом и могучем. Спасибо! Жаль что статья попалась в рекомендации только через неделю после публикации, скорее всего дело в хабах или тэгах - могла и потеряться в инфошуме.

@ovsale Feb 4 2024 at 13:33

Для нас важно что у русских(сбер, яндекс) моделей на каждые три символа приходится 1 токен, а у Llama/Mistral/Gpt4(в меньшей степени) на ~ КАЖДЫЙ символ приходится токен.

в gpt-3.5/gpt-4 уверенно 2 русских символа на токен

@freQuensy23 Apr 23 2024 at 08:33

А есть где то код для воспроизведения? Очень хочется попробовать?