Комментарии 6
Спасибо, интересно.
Когда увидел слово мультиязычный - подумал речь про обычные человеческие языки, а вы про языки программирования оказывается.
Как вы отбирали модели для тестирования? Сразу расстроило отсутствие gemini 2.5-flash (или хотя бы 2.0). Неясно также по 2.5-pro - какая версия тестировалась? На неё постоянно приходят обновления.
Будет какой-нибудь сайт или что-то такое с наглядными результатами? Наделялся найти такое по ссылке "Мы представляем", но по факту просто ведёт на главную вашей компании.
Спасибо за комментарий!
- Как отбирались модели для тестирования? Для первой итерации тестирования взяли наиболее популярные и показывающие уже очень хорошие результаты в бенчмарках. Интерес был проверить такие модели именно на закрытом наборе данных, сложных и многотерновых задачах, которые могли не участвовать в обучающем наборе данных этих моделей
- Какая версия Gemini 2.5 Pro использовалась? Gemini 2.5 Pro Experimental от 6 Мая 2025
- Где можно найти сайт с наглядными результаты? Платформа с live результатами тестирования в планах реализации. Нам бы хотелось поддерживать этот бенчмарк в режиме online. Пока трудно сказать о датах релиза такой платформы, следите за новостями :)
разрушьте, пожалуйста, своим инструментом ллмки Мистрал
их свеженькая Mistral Medium 3 во много раз дешевле и, может, даже быстрее, а по уровню выполнения задач обещают 90% от Клода 3.7.
французы вообще молодцы, их публичная модель Devstral на 24В всего лишь, но по сравнению с другими ЛЛМ с похожими весами работает более-менее стабильно, хоть и, конечно, хуже, чем средние или большие модели от Мистрал
Вы авторы бенчмарка? Есть ли лидерборд? И пишите плиз точные версии моделей - какая именно Gemini 2.5 Pro? Их уже 3 разных версии, причем последняя с явным thinking budget, и указывайте, пожалуйста, thinking или non thinking версия - так будет профессиональнее выглядеть ваша работа.
Ну и главный вопрос - что вы используете в кач-ве Scaffold? Cursor, Cline, OpenHands или какого-то своего агента?
Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench