Pull to refresh

Comments 1

В Твиттере уже писали что бенчмарки, в частности swe-bench verified, не правильно выполнены. Модель видела историю гита и таким образом сжульничала.

Также другие тесты от пользователей показали что ей далеко до gpt 5.2, claude и других топовых моделей.

Sign up to leave a comment.

Information

Website
bothub.chat
Registered
Founded
Employees
2–10 employees