MarkGermes13 фев в 17:24

Сравнение LLM по навыку анализа бизнес-процессов

Простой

3 мин

12K

Бизнес-модели * Искусственный интеллектИсследования и прогнозы в IT * Машинное обучение *

Обзор

Комментарии 10

ITlala 13 фев в 17:30

Это прямо один в один то, что всё собиралась сделать сама, но всё руки ни как не доходили. Табличка - просто огонь.

MarkGermes 19 фев в 10:55

Всегда пожалуйста ;)

MEGA_Nexus 14 фев в 02:49

А какой средний результат у человека в этих тестах? Может окажется, что в среднем люди не очень выше по результатам будут.

Romatio 14 фев в 20:25

20,5 тысяч записей - плюс человекочасы.

MarkGermes 19 фев в 10:43

Изначально ресёч делался для того чтобы выбрать "лучшую" LLM для конкретной коммерческой платформы. Уже потом решил результаты опубликовать, чтобы "с столе не лежали". Поэтому для задачи тест на человеке не требовался. Однако, тест всё-таки был, правда, я посчитал его не очень честным, поэтому не стал включать в таблицу. Те же задания прорешал 1 человек с максимально высокой экспертизой в анализе бизнес-процессов. Человек набрал 99% (99% - лог, 100% - текст, 100% - картинка). Однако, это был только один человек , не правильно оценивать скилы "человечества" только по одному индивидууму. Во-вторых, в отличие от LLM человек знал сколько именно было неэффективностей (так вышло). В-третьих, человек не галлюцинирует (ну, по крайней мере большинство), а за галлюцинации в тесте снимались балы. В-четвертых, LLM выполняли задачу от нескольких секунд до нескольких минут, а человек решал задания 2 дня full-time. Время в тесте не учитывалось, поэтому сравнение не релевантное. Я планирую организовать в ближайшем будущим тест с группой бизнес-аналитиков, в сопоставимых для сравнения условиях, после этого напишу о результате.

sergeyssv 15 фев в 06:19

Результат очень сомнительный : нет файлов которые давались на анализ + нет промптов.

MarkGermes 19 фев в 10:45

Файлов и промпта выложено и не будет, т.к. ресёч делался не "ради науки", а для коммерческого проекта, для выбора LLM для AI-first платформы. Фактически разработанные тесты являются "обвесами", для проверки качества работы.

Mangol31 15 фев в 18:31

Почему в итоге рекомендован Claude Opus, вообще не понятно. Она на 3% всего обогнала GPT на процесс-майнинге, но зато конкретно слила ей на остальных тестах. Далеко не все только процесс-майнингом занимаются

MarkGermes 19 фев в 10:50

Вы абсолютно правы. Так и есть. Этот ресёч делался для коммерческой платформы в которой как-раз соотношение модальностей, которые используют пользователи, 80% - сырой лог, 10% - регламенты и словесное описание процессов, 10% - картинки. Отсюда и веса. Если бы мы взяли веса всех тестов поровну, то, действительно, лучшей бы оказалась GPT-5.2, а второе место - Gemini 3 pro. Claude Opus 4.6 съехал бы вообще на 5 место. Однако, с текущей пропорцией весов 80%/10%/10% - лидеры Claude Opus 4.6 и GPT-5.2.

MarkGermes 19 фев в 10:54

Протестировал новую модель Qwen 3.5 plus на тех же тестах. Результат: итоговый скор - 39%, сырой лог - 40%, текст - 23%, картинка - 50%. Это выводит модель на 5 место, после Claude Opus 4.6 , GPT-5.2 , GPT-4.1 и GLM-5.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий