Комментарии / Профиль alexwortega / Хабр

Alex wortega @alexwortega

Roleplay молодого DS

ПрофильСтатьи10ПостыНовостиКомментарии68

Doom — русский физмат бенчмарк

alexwortega 11 мая в 16:57

Русские Олимпиады все же отличаются идеями необходимыми для решения, да и скорее просто интересно, почему нет

Посмотреть

Doom — русский физмат бенчмарк

alexwortega 11 мая в 16:53

Не добавляли такие задачи, оценивать ход решения очень сложно

Посмотреть

Как мы создали LLM-модель Cotype Nano

alexwortega 26 ноя 2024 в 17:03

Привет! Я из ruGeneralArena, мы просим всех репортах опиратся на https://huggingface.co/spaces/Vikhrmodels/arenahardlb тк она онлайн+ там судья 4о, а не 4t, ваша модель по прежнему оч крутая там, но цифры у гиги и яндекса в гите старые, а в онлайн арене нет.

Посмотреть

Шлепа — Большой Русский Бенчмарк

alexwortega 26 сен 2024 в 00:10

Поздравляю!

Посмотреть

Шлепа — Большой Русский Бенчмарк

alexwortega 2 сен 2024 в 17:52

до gpt4 как до луны на русском, стало лучше != догнало. 3.5 догнало +-

Посмотреть

Шлепа — Большой Русский Бенчмарк

alexwortega 2 сен 2024 в 16:55

Там это не сколько проблема MERA, а скорее lm-evaluation-harness на котором MERA основана, он не очень дружил в момент релиза и с апи и с prompt templates

Посмотреть

Шлепа — Большой Русский Бенчмарк

alexwortega 2 сен 2024 в 16:53

Привет! Да это все понятно про стиль и тд.

В целом никак не боремся в данный момент, не думаю что текущий опенсурс с поддержкой русского приблизился значимо

Посмотреть

Шлепа — Большой Русский Бенчмарк

alexwortega 2 сен 2024 в 12:02

Прошу прощения, поменял

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 28 янв 2024 в 22:43

Модели не учились на них, они лежат как экспериментальные

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 26 янв 2024 в 01:21

Привет! https://huggingface.co/docs/accelerate/concept_guides/big_model_inference tensor paralel встроенный в accelerate умеет это решать сильно проще чем deepspeed. к слову тренить так тоже можно!

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 26 янв 2024 в 01:20

да, к сожалению метод обучения ломает модель на инфернсе в квантованном виде, stay tuned будут апдейты

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 24 янв 2024 в 16:48

Привет, да с tensor parallel в fp16 без проблем, просто это довольно медленно. я использовал 5h100 с runpod

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 24 янв 2024 в 16:48

Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 23 янв 2024 в 21:55

да офк, я очень сильно сомневаюсь что хоть одна сетка напишет нормальный технический текст

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 23 янв 2024 в 21:55

да загоните в гугл докс и убедитесь что оне не видит эти ошибки, что флудить то

Посмотреть

Вихрь — семейство переведенных русскоязычных LLM

alexwortega 23 янв 2024 в 11:40

честно? без понятия. если буду писать paper хочу проверить устойчивость разных вариантов + попробовать clip_ать loss