alexwortega 5 мая в 07:49

Doom — русский физмат бенчмарк

3 мин

4.1K

Всем привет!

Мы опять релизим бенчмарки для русского, в прошлый раз мы зарелизили Shlepa и ruArenahard - автоматические открытые бенчмарки для русского, меряем знание культуры и IF моделей. Арена почти насыщена и используется всеми провайдерами моделей на русском.

Мы посмотрели на хайп ризонинга и решили - а почему не сделать бенчмарк для математики и физики на русском?

У нас больше года лежат задачки по математике и физики которые не пошли в бенчмарк в прошлом году, давайте соберем простенькую библиотеку чтобы можно было гонять модели и выложим открытый LB для решений.

Изначально была идея собрать еще бенчмарк поверх Демидовича, но реализовать точную сравнивалку ответов оказалось сложнее ожидаемого - llm ломаются, ast часто лажают на вариантах когда ответ очень сложный, но в конце концов бросили. Возможно сообщество доделает начатую работу.

Фактически на русском нет открытых современных бенчмарков для математики и ризонинга, поэтому посмотрим что сделано на английском:

Gsm8k - классический бенчмарк от openai, собран из школьных задач требующих от решающего когнитивных способностей, большая часть задач не требует сложных идей, НОДы НОКи, простые уравнения - более чем достаточно

MAth - датасет математических задач собранный из очень разных источников, включат в себя разные разделы математики, уже доходит до вузовской

бОльшая часть задач требует навыка счета уравнений или знания простых идей(ну там геом/алг прогрессии и тд) для русскоязычной аудитории это можно описать как “вторая” часть егэ/11 класс-1 курс универа.

Aime{year} - American Invitational Mathematics Examination

Довольно сложный бенчмарк, требует использовать разные идеи, иногда не очень очевидные. По сложности ближе к дополнительным вступительным в МГУ или старым вузовским экзаменам.

Мы состалвяли бенчмарк из разных задач по математике - включили ранзые по уровню сложности и по специфике задачи из разных олимпиад - Ломоносов(msu), Высшая проба(hse), олимпиада физтех (mipt), ОММО (оmmo), ВсеРос(school, region, allrus - разные этапы всероса)

пичарт дефолтными цветами, в следущий раз сделаю гилби pie chart

Физика собрана аналогично, но только с ВСОШ и только задачи без рисунков.

В случае с физикой мы использовали только разные этапы всероса, это правда не спасает модели от лаж, балансировать мы приницпиально не стали, пока что бенчмарк дизайнился как РЕШАЕМЫЙ в течение полугода-года. Мы ожидаем насыщения бенчмарка самое большое за полтора года.

Довольно ожидаемые результаты - если тратишь ~2к токенов то и получаются высокие результаты, не ризонинг модели показывают в целом такую же тенденцию - больше токенов - лучше результаты.

Как измеряются скоры:

Сначала каждая тестируемая модель последовательно обрабатывает задачи из двух основных наборов данных: RussianMath, содержащего математические задачи, и RussianPhysics, включающего задачи по физике.

Для каждой отдельной задачи, предложенной модели, её сгенерированный ответ сравнивается с заранее известным эталонным решением. Проверка на правильность осуществляется с помощью специализированного механизма сравнения, который учитывает особенности форматирования и точности, характерные для математических и физических ответов. По результатам сравнения каждой задаче присваивается бинарный балл: 1 за правильный ответ и 0 за неправильный.

Далее вычисляются индивидуальные баллы для каждого из двух наборов данных. RussianMath Score рассчитывается как среднее арифметическое всех баллов (0 или 1), полученных моделью за задачи из математического набора. Аналогично, RussianPhysics Score представляет собой среднее арифметическое баллов за все задачи из физического набора. Этот процесс агрегации индивидуальных результатов в итоговый балл для датасета выполняется стандартной функцией.

Для моделей, успешно прошедших тестирование на обоих наборах данных, вводится дополнительная метрика — Combined Score, который вычисляется как простое среднее арифметическое двух ранее полученных баллов: RussianMath Score и RussianPhysics Score.

Все полученные результаты, включая баллы по отдельным датасетам, комбинированный балл, а также сопутствующая информация (название модели, время, затраченное на оценку, количество использованных токенов), систематически сохраняются в структурированном файле формата JSON. На основе этих данных автоматически генерируется итоговая таблица лидеров в формате Markdown

Сcылочки

Huggingface

Github

Хабы:

Doom — русский физмат бенчмарк

Публикации

Ближайшие события