Maslennikovig May 15 at 11:19

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

Hard

6 min

9.8K

Machine learning * Programming *

Opinion

Comments 4

alekslynx May 16 at 15:15

Пока писали статью, gpt 5.5 уже решила полностью одну задачу))) мир меняется быстро https://programbench.com/blog/gpt-5-5-first-solve/

Mes May 16 at 15:19

Жаль, что статья вся написана нейросетью.

palyaros02 May 16 at 17:37

Ну невозможно читать эти нейросетевые потуги. Так люди не пишут. Вот как вообще рука поднимается это публиковать? Это неуважение к себе или ко всем вокруг? И почему “сложный”? В статье ни одной строки кода и в принципе ни одной концепции для осознания не содержится. Автор, если вам сложно читать нейробред, зачем вы нас им кормите? И что вы тут обучили или напрограммировали? Куда администрация Хабра смотрит?

xsepsisx May 17 at 13:11

Интересно, как быстро китайцы натаскают свои модели на этот бенч, чтобы иметь маркетинговое преимущество.