Привет! Я из ruGeneralArena, мы просим всех репортах опиратся на https://huggingface.co/spaces/Vikhrmodels/arenahardlb тк она онлайн+ там судья 4о, а не 4t, ваша модель по прежнему оч крутая там, но цифры у гиги и яндекса в гите старые, а в онлайн арене нет.
Там это не сколько проблема MERA, а скорее lm-evaluation-harness на котором MERA основана, он не очень дружил в момент релиза и с апи и с prompt templates
Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.
Русские Олимпиады все же отличаются идеями необходимыми для решения, да и скорее просто интересно, почему нет
Не добавляли такие задачи, оценивать ход решения очень сложно
Привет! Я из ruGeneralArena, мы просим всех репортах опиратся на https://huggingface.co/spaces/Vikhrmodels/arenahardlb тк она онлайн+ там судья 4о, а не 4t, ваша модель по прежнему оч крутая там, но цифры у гиги и яндекса в гите старые, а в онлайн арене нет.
Поздравляю!
до gpt4 как до луны на русском, стало лучше != догнало. 3.5 догнало +-
Там это не сколько проблема MERA, а скорее lm-evaluation-harness на котором MERA основана, он не очень дружил в момент релиза и с апи и с prompt templates
Привет! Да это все понятно про стиль и тд.
В целом никак не боремся в данный момент, не думаю что текущий опенсурс с поддержкой русского приблизился значимо
Прошу прощения, поменял
Модели не учились на них, они лежат как экспериментальные
Привет! https://huggingface.co/docs/accelerate/concept_guides/big_model_inference tensor paralel встроенный в accelerate умеет это решать сильно проще чем deepspeed. к слову тренить так тоже можно!
да, к сожалению метод обучения ломает модель на инфернсе в квантованном виде, stay tuned будут апдейты
Привет, да с tensor parallel в fp16 без проблем, просто это довольно медленно. я использовал 5h100 с runpod
Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.
да офк, я очень сильно сомневаюсь что хоть одна сетка напишет нормальный технический текст
да загоните в гугл докс и убедитесь что оне не видит эти ошибки, что флудить то
честно? без понятия. если буду писать paper хочу проверить устойчивость разных вариантов + попробовать clip_ать loss
Э, с KL не сходилось, со Slerp лучше сходилось
ну да, текст написал вихрь, еще вопросы?
Отличная работа! А будут маленькие версии выкладываться? 2.7b/6b?
Так то есть simple rockets 2 который хорошо стимулирует кад и целиком копирует ksp(местами значительно лучше)