vladislav_dt 7 июн в 14:17

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Сложный

18 мин

1.4K

Блог компании DoubletappData Mining*Искусственный интеллектМашинное обучение*Data Engineering*

Обзор

Комментарии 6

Tassdesu 7 июн в 19:05

Спасибо, интересно.

Когда увидел слово мультиязычный - подумал речь про обычные человеческие языки, а вы про языки программирования оказывается.

Как вы отбирали модели для тестирования? Сразу расстроило отсутствие gemini 2.5-flash (или хотя бы 2.0). Неясно также по 2.5-pro - какая версия тестировалась? На неё постоянно приходят обновления.

Будет какой-нибудь сайт или что-то такое с наглядными результатами? Наделялся найти такое по ссылке "Мы представляем", но по факту просто ведёт на главную вашей компании.

vladislav_dt 9 июн в 11:46

Спасибо за комментарий!
- Как отбирались модели для тестирования? Для первой итерации тестирования взяли наиболее популярные и показывающие уже очень хорошие результаты в бенчмарках. Интерес был проверить такие модели именно на закрытом наборе данных, сложных и многотерновых задачах, которые могли не участвовать в обучающем наборе данных этих моделей

- Какая версия Gemini 2.5 Pro использовалась? Gemini 2.5 Pro Experimental от 6 Мая 2025

- Где можно найти сайт с наглядными результаты? Платформа с live результатами тестирования в планах реализации. Нам бы хотелось поддерживать этот бенчмарк в режиме online. Пока трудно сказать о датах релиза такой платформы, следите за новостями :)

PsychoGod 8 июн в 06:46

разрушьте, пожалуйста, своим инструментом ллмки Мистрал

их свеженькая Mistral Medium 3 во много раз дешевле и, может, даже быстрее, а по уровню выполнения задач обещают 90% от Клода 3.7.

французы вообще молодцы, их публичная модель Devstral на 24В всего лишь, но по сравнению с другими ЛЛМ с похожими весами работает более-менее стабильно, хоть и, конечно, хуже, чем средние или большие модели от Мистрал

vladislav_dt 9 июн в 11:48

В этом сезоне у нас будет обновление бенчмарка - его расширение на больший набор задач и в следующей итерации планируем охватить больший набор моделей. Самим тоже интересно увидеть результаты с Mistral, 1-2 модели думаю точно включим в следующую итерацию тестирования)

rodion-m 16 часов назад

Вы авторы бенчмарка? Есть ли лидерборд? И пишите плиз точные версии моделей - какая именно Gemini 2.5 Pro? Их уже 3 разных версии, причем последняя с явным thinking budget, и указывайте, пожалуйста, thinking или non thinking версия - так будет профессиональнее выглядеть ваша работа.

rodion-m 16 часов назад

Ну и главный вопрос - что вы используете в кач-ве Scaffold? Cursor, Cline, OpenHands или какого-то своего агента?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий