alexwortega May 5 2025 at 07:49

Doom — русский физмат бенчмарк

3 min

7.5K

Mathematics * Machine learning *

+15

Comments 7

pahaz May 5 2025 at 08:52

Удивительно, что даже Gemma 3 27b выше гигачата. Интересно посмотреть на YandexGPT.

alexanderkuk May 7 2025 at 16:03

Российских ризонинг моделей нет, российский ризонинг бенчмарк есть ))

Или есть какие-то ризонинг модели?

alexanderkuk May 7 2025 at 16:07

Есть ли большой смысл переводить датасет по математике / майнить задачи математике на русском языке? Я понимаю зачем например бенч с русскими сканами на OCR, зачем бенч на русский культурный код. Но математика на всех языках одинаковая. Та же мысль про бенчи про код

atd May 7 2025 at 17:55

Математика на всех языках одинаковая. однако, какие её разделы и в каком виде попадают на олимпиады и экзамены — сильно отличается. И не только между языками, но даже между, например, Москвой и Питером.

alexwortega May 11 2025 at 13:57

Русские Олимпиады все же отличаются идеями необходимыми для решения, да и скорее просто интересно, почему нет

atd May 7 2025 at 17:44

По результатам сравнения каждой задаче присваивается бинарный балл: 1 за правильный ответ и 0 за неправильный

На олимпиадах оценивается не только ответ, но и сам ход решения. Очень часто случается так, что если не обосновать выводы, то решение оценят в 0 даже при верном ответе.

Ну и вопрос, как вы оценивали задачи в стиле «докажите, что....»?

alexwortega May 11 2025 at 13:53

Не добавляли такие задачи, оценивать ход решения очень сложно