Comments / Profile of MarkGermes / Habr

Протестировал новую модель Qwen 3.5 plus на тех же тестах. Результат: итоговый скор - 39%, сырой лог - 40%, текст - 23%, картинка - 50%. Это выводит модель на 5 место, после Claude Opus 4.6 , GPT-5.2 , GPT-4.1 и GLM-5.

Сравнение LLM по навыку анализа бизнес-процессов

MarkGermes Feb 19 at 10:50

Вы абсолютно правы. Так и есть. Этот ресёч делался для коммерческой платформы в которой как-раз соотношение модальностей, которые используют пользователи, 80% - сырой лог, 10% - регламенты и словесное описание процессов, 10% - картинки. Отсюда и веса. Если бы мы взяли веса всех тестов поровну, то, действительно, лучшей бы оказалась GPT-5.2, а второе место - Gemini 3 pro. Claude Opus 4.6 съехал бы вообще на 5 место. Однако, с текущей пропорцией весов 80%/10%/10% - лидеры Claude Opus 4.6 и GPT-5.2.

Сравнение LLM по навыку анализа бизнес-процессов

MarkGermes Feb 19 at 10:45

Файлов и промпта выложено и не будет, т.к. ресёч делался не "ради науки", а для коммерческого проекта, для выбора LLM для AI-first платформы. Фактически разработанные тесты являются "обвесами", для проверки качества работы.

Сравнение LLM по навыку анализа бизнес-процессов

MarkGermes Feb 19 at 10:43

Изначально ресёч делался для того чтобы выбрать "лучшую" LLM для конкретной коммерческой платформы. Уже потом решил результаты опубликовать, чтобы "с столе не лежали". Поэтому для задачи тест на человеке не требовался. Однако, тест всё-таки был, правда, я посчитал его не очень честным, поэтому не стал включать в таблицу. Те же задания прорешал 1 человек с максимально высокой экспертизой в анализе бизнес-процессов. Человек набрал 99% (99% - лог, 100% - текст, 100% - картинка). Однако, это был только один человек , не правильно оценивать скилы "человечества" только по одному индивидууму. Во-вторых, в отличие от LLM человек знал сколько именно было неэффективностей (так вышло). В-третьих, человек не галлюцинирует (ну, по крайней мере большинство), а за галлюцинации в тесте снимались балы. В-четвертых, LLM выполняли задачу от нескольких секунд до нескольких минут, а человек решал задания 2 дня full-time. Время в тесте не учитывалось, поэтому сравнение не релевантное. Я планирую организовать в ближайшем будущим тест с группой бизнес-аналитиков, в сопоставимых для сравнения условиях, после этого напишу о результате.

MOEX_AutoML VS ИИ (LLM)

MarkGermes Aug 25 2025 at 12:13

В AutoML есть две стадии отбора методов (разные регрессии, бускинги и т.д.). Имелось введу, что наряду с этими методами можно встроить в AutoML другие AutoML-и (HPO-centric типа), т.е. [метод_1, метод_2, метод_3,..., метод_N, AutoML_1, AutoML_2,..., AutoML_N] и MOEX AutoML будет отбирать , при лучшем значении целевой метрики либо метод (регрессию, бустинг, сетку и т.д.) либо AutoML. Поэтому "AutoML поверх AutoML ".

MOEX_AutoML VS ИИ (LLM)

MarkGermes Aug 25 2025 at 08:13

Результаты AutoML - это НЕ одна конкретная модель, а множество уникальных моделей для каждой тестовой метрики ( в тестовом случае 1150 разных ML-моделей для moc-датасета и 11 для реальных данных). AutoML нужен был, чтобы не ставить одну модель сразу на все метрики (таргеты), а для каждой метрики (таргета) была своя максимально подогнанная под метрику качества модель. Руками перебрать около пятидесяти тысяч вариантов моделей для каждой метрики (метод + гиперпараметры + стекинг) + огромнейшее число различных фичей (все сочетания фичей для каждого варианта модели) - не реально, а вот AutoML с эти легко справляется.

Information

Specialization