Комментарии 10
Это прямо один в один то, что всё собиралась сделать сама, но всё руки ни как не доходили. Табличка - просто огонь.
А какой средний результат у человека в этих тестах? Может окажется, что в среднем люди не очень выше по результатам будут.
20,5 тысяч записей - плюс человекочасы.
Изначально ресёч делался для того чтобы выбрать "лучшую" LLM для конкретной коммерческой платформы. Уже потом решил результаты опубликовать, чтобы "с столе не лежали". Поэтому для задачи тест на человеке не требовался. Однако, тест всё-таки был, правда, я посчитал его не очень честным, поэтому не стал включать в таблицу. Те же задания прорешал 1 человек с максимально высокой экспертизой в анализе бизнес-процессов. Человек набрал 99% (99% - лог, 100% - текст, 100% - картинка). Однако, это был только один человек , не правильно оценивать скилы "человечества" только по одному индивидууму. Во-вторых, в отличие от LLM человек знал сколько именно было неэффективностей (так вышло). В-третьих, человек не галлюцинирует (ну, по крайней мере большинство), а за галлюцинации в тесте снимались балы. В-четвертых, LLM выполняли задачу от нескольких секунд до нескольких минут, а человек решал задания 2 дня full-time. Время в тесте не учитывалось, поэтому сравнение не релевантное. Я планирую организовать в ближайшем будущим тест с группой бизнес-аналитиков, в сопоставимых для сравнения условиях, после этого напишу о результате.
Результат очень сомнительный : нет файлов которые давались на анализ + нет промптов.
Почему в итоге рекомендован Claude Opus, вообще не понятно. Она на 3% всего обогнала GPT на процесс-майнинге, но зато конкретно слила ей на остальных тестах. Далеко не все только процесс-майнингом занимаются
Вы абсолютно правы. Так и есть. Этот ресёч делался для коммерческой платформы в которой как-раз соотношение модальностей, которые используют пользователи, 80% - сырой лог, 10% - регламенты и словесное описание процессов, 10% - картинки. Отсюда и веса. Если бы мы взяли веса всех тестов поровну, то, действительно, лучшей бы оказалась GPT-5.2, а второе место - Gemini 3 pro. Claude Opus 4.6 съехал бы вообще на 5 место. Однако, с текущей пропорцией весов 80%/10%/10% - лидеры Claude Opus 4.6 и GPT-5.2.
Протестировал новую модель Qwen 3.5 plus на тех же тестах. Результат: итоговый скор - 39%, сырой лог - 40%, текст - 23%, картинка - 50%. Это выводит модель на 5 место, после Claude Opus 4.6 , GPT-5.2 , GPT-4.1 и GLM-5.

Сравнение LLM по навыку анализа бизнес-процессов