Комментарии 13
MERA это бенчмарк Альянса в сфере искусственного интеллекта, а не Сбера
Прошу прощения, поменял
Справедливости ради, там все заточено под большие компании.
Мое предложение "а давайте вы сделаете простой код, чтобы можно было вашу MERA прогнать через OpenAI-compatible интерфейс (что является стандартом)" было проигнорировано.
В новом релизе будет как раз поддержка API и замеры со всеми обновлениями фреймворка lm-harness, стандарта сейчас для замеров =) Меняем интерфейс на сайте, чтобы было удобно с сабмитами работать пользователям. Подождите буквально чуть-чуть, мы уже на финишной прямой 🙏
Очень жду, по OpenAI API могу сам померить, было бы интересно.
Очень надеюсь на хороший эталонный пример реализации и запуска, чтобы можно было легко модифицировать под свои нужды (предыдущий бенчмарк надо было очень долго настраивать на качественную обработку, для энтузиастов подобные вещи тяжелы, проще просто не заниматься этим)
Ура! Мы зарелизились:
https://habr.com/ru/companies/sberdevices/articles/844982/
Как раз теперь есть поддержка чат темплейтов, API
А часть публичных тестов можно замерять прям в кодовой базе без сайта =)
Там это не сколько проблема MERA, а скорее lm-evaluation-harness на котором MERA основана, он не очень дружил в момент релиза и с апи и с prompt templates
У ребят из LMSYS как раз вышла недавно статья "Does style matter? Disentangling style and substance in Chatbot Arena"
В котором они подтверждают, что красивый маркдаун, более длинные тексты, и разные стилистические хаки завышают рейтинг моделям, которые используют их. И предложили свой способ отделять содержание ответа от его стиля. Сейчас на llmarena.ru мы тоже внедряем этот фильтр.
По нашем данным gpt4 дает довольно сухие ответы без стиля, из-за чего на простых промптах Vikhrmodels/it-5.2-fp16-cp, T-lite ее обгоняет. Скину ниже пару примеров логов.
А как вы боритесь баесом, что модели оценщики (judge LLM as judge) с больше вероятностью голосуют за свою линейку моделей?
Привет! Да это все понятно про стиль и тд.
В целом никак не боремся в данный момент, не думаю что текущий опенсурс с поддержкой русского приблизился значимо
не думаю что текущий опенсурс с поддержкой русского приблизился значимо
Вообще текущий опенсорс продвинулся знатно, какая-нибудь Гемма 27b или еще суровей, Лама 3.1 405b.
Сейчас с Ильей Гусевым работаем над бенчем по ролеплей моделям - если раньше я ратовал за "переводим на английский - генерим - переводим на русский" - то сейчас готов принимать ответы на русском, очень приличные результаты.
Шлепа — Большой Русский Бенчмарк