Действительно, каждую модель с каждой мы не сравнивали - это слишком дорого и в целом бессмысленно на практике. В нашем бенчмарке считаются разные метрики: часть из них pairwise, часть - pointwise. По pointwise-метрикам, а также по неполной транзитивности pairwise-метрик можно отранжировать модели (В следующем посте это обязательно учтём , и добавим таблицу со всеми метриками для наглядности).
Про модели из поста можно сказать следующее. Cреди моделей OpenAI порядок такой - gpt4o < gpt4.1 < o4-mini. Qwen2.5-coder/Qwen3 хуже всех моделей от OpenAI и DeepSeek. Также известно, что DeepSeek R1 / V3 ≤ gpt4.1.
Здравствуйте, спасибо за вопрос.
Действительно, каждую модель с каждой мы не сравнивали - это слишком дорого и в целом бессмысленно на практике.
В нашем бенчмарке считаются разные метрики: часть из них pairwise, часть - pointwise. По pointwise-метрикам, а также по неполной транзитивности pairwise-метрик можно отранжировать модели
(В следующем посте это обязательно учтём , и добавим таблицу со всеми метриками для наглядности).
Про модели из поста можно сказать следующее.
Cреди моделей OpenAI порядок такой - gpt4o < gpt4.1 < o4-mini.
Qwen2.5-coder/Qwen3 хуже всех моделей от OpenAI и DeepSeek.
Также известно, что DeepSeek R1 / V3 ≤ gpt4.1.