Search
Write a publication
Pull to refresh
1
0

Занимаюсь vibe coding и vibe checking

Send message

Здравствуйте, спасибо за вопрос.

Действительно, каждую модель с каждой мы не сравнивали - это слишком дорого и в целом бессмысленно на практике.
В нашем бенчмарке считаются разные метрики: часть из них pairwise, часть - pointwise. По pointwise-метрикам, а также по неполной транзитивности pairwise-метрик можно отранжировать модели
(В следующем посте это обязательно учтём , и добавим таблицу со всеми метриками для наглядности).

Про модели из поста можно сказать следующее.
Cреди моделей OpenAI порядок такой - gpt4o < gpt4.1 < o4-mini.
Qwen2.5-coder/Qwen3 хуже всех моделей от OpenAI и DeepSeek.
Также известно, что DeepSeek R1 / V3 ≤ gpt4.1.

Information

Rating
2,744-th
Registered
Activity