alexwortega 2 сен 2024 в 07:00

Шлепа — Большой Русский Бенчмарк

6 мин

5.2K

Python * Искусственный интеллектNatural Language Processing *

Кейс

+17

Комментарии 13

oulenspiegel 2 сен 2024 в 07:43

MERA это бенчмарк Альянса в сфере искусственного интеллекта, а не Сбера

alexwortega 2 сен 2024 в 09:02

Прошу прощения, поменял

janvarev 2 сен 2024 в 10:50

Справедливости ради, там все заточено под большие компании.

Мое предложение "а давайте вы сделаете простой код, чтобы можно было вашу MERA прогнать через OpenAI-compatible интерфейс (что является стандартом)" было проигнорировано.

alenusch 2 сен 2024 в 11:13

В новом релизе будет как раз поддержка API и замеры со всеми обновлениями фреймворка lm-harness, стандарта сейчас для замеров =) Меняем интерфейс на сайте, чтобы было удобно с сабмитами работать пользователям. Подождите буквально чуть-чуть, мы уже на финишной прямой 🙏

janvarev 2 сен 2024 в 14:06

Очень жду, по OpenAI API могу сам померить, было бы интересно.

Очень надеюсь на хороший эталонный пример реализации и запуска, чтобы можно было легко модифицировать под свои нужды (предыдущий бенчмарк надо было очень долго настраивать на качественную обработку, для энтузиастов подобные вещи тяжелы, проще просто не заниматься этим)

alenusch 25 сен 2024 в 12:09

Ура! Мы зарелизились:
https://habr.com/ru/companies/sberdevices/articles/844982/
Как раз теперь есть поддержка чат темплейтов, API
А часть публичных тестов можно замерять прям в кодовой базе без сайта =)

alexwortega 25 сен 2024 в 21:10

Поздравляю!

alexwortega 2 сен 2024 в 13:55

Там это не сколько проблема MERA, а скорее lm-evaluation-harness на котором MERA основана, он не очень дружил в момент релиза и с апи и с prompt templates

kucev 2 сен 2024 в 13:21

У ребят из LMSYS как раз вышла недавно статья "Does style matter? Disentangling style and substance in Chatbot Arena"

В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.

По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.

А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?

kucev 2 сен 2024 в 13:33

alexwortega 2 сен 2024 в 13:53

Привет! Да это все понятно про стиль и тд.

В целом никак не боремся в данный момент, не думаю что текущий опенсурс с поддержкой русского приблизился значимо

janvarev 2 сен 2024 в 14:08

не думаю что текущий опенсурс с поддержкой русского приблизился значимо

Вообще текущий опенсорс продвинулся знатно, какая-нибудь Гемма 27b или еще суровей, Лама 3.1 405b.

Сейчас с Ильей Гусевым работаем над бенчем по ролеплей моделям - если раньше я ратовал за "переводим на английский - генерим - переводим на русский" - то сейчас готов принимать ответы на русском, очень приличные результаты.

alexwortega 2 сен 2024 в 14:52

до gpt4 как до луны на русском, стало лучше != догнало. 3.5 догнало +-

Зарегистрируйтесь на Хабре, чтобы оставить комментарий