Comments / Profile of typing

Занимаюсь vibe coding и vibe checking

Кто сильнее в синтезе тестов? Сравниваем GPT-4.1, DeepSeek, Qwen на своем бенчмарке

typing_cat13 Jun 23 2025 at 09:26

Здравствуйте, спасибо за вопрос.

Действительно, каждую модель с каждой мы не сравнивали - это слишком дорого и в целом бессмысленно на практике.
В нашем бенчмарке считаются разные метрики: часть из них pairwise, часть - pointwise. По pointwise-метрикам, а также по неполной транзитивности pairwise-метрик можно отранжировать модели
(В следующем посте это обязательно учтём , и добавим таблицу со всеми метриками для наглядности).

Про модели из поста можно сказать следующее.
Cреди моделей OpenAI порядок такой - gpt4o < gpt4.1 < o4-mini.
Qwen2.5-coder/Qwen3 хуже всех моделей от OpenAI и DeepSeek.
Также известно, что DeepSeek R1 / V3 ≤ gpt4.1.