Pull to refresh
5
7
Андрей@MarkGermes

User

Send message

Он пятый. Вот бэнчмаркинг https://habr.com/p/996394/

Но там уже на третье место Gemini 3.1 pro влезло.

Claude Opus 4.6 показывает лучше результат в навыке анализа бизнес-процессов.

В Dyna‑Q метод учитывает изменения в среде, а не только скалярную величину награды.

Интересно, а можно ли правила по приоритезации самому писать?

Всегда пожалуйста ;)

Протестировал новую модель Qwen 3.5 plus на тех же тестах. Результат: итоговый скор - 39%, сырой лог - 40%, текст - 23%, картинка - 50%. Это выводит модель на 5 место, после Claude Opus 4.6 , GPT-5.2 , GPT-4.1 и GLM-5.

Вы абсолютно правы. Так и есть. Этот ресёч делался для коммерческой платформы в которой как-раз соотношение модальностей, которые используют пользователи, 80% - сырой лог, 10% - регламенты и словесное описание процессов, 10% - картинки. Отсюда и веса. Если бы мы взяли веса всех тестов поровну, то, действительно, лучшей бы оказалась GPT-5.2, а второе место - Gemini 3 pro. Claude Opus 4.6 съехал бы вообще на 5 место. Однако, с текущей пропорцией весов 80%/10%/10% - лидеры Claude Opus 4.6 и GPT-5.2.

Файлов и промпта выложено и не будет, т.к. ресёч делался не "ради науки", а для коммерческого проекта, для выбора LLM для AI-first платформы. Фактически разработанные тесты являются "обвесами", для проверки качества работы.

Изначально ресёч делался для того чтобы выбрать "лучшую" LLM для конкретной коммерческой платформы. Уже потом решил результаты опубликовать, чтобы "с столе не лежали". Поэтому для задачи тест на человеке не требовался. Однако, тест всё-таки был, правда, я посчитал его не очень честным, поэтому не стал включать в таблицу. Те же задания прорешал 1 человек с максимально высокой экспертизой в анализе бизнес-процессов. Человек набрал 99% (99% - лог, 100% - текст, 100% - картинка). Однако, это был только один человек , не правильно оценивать скилы "человечества" только по одному индивидууму. Во-вторых, в отличие от LLM человек знал сколько именно было неэффективностей (так вышло). В-третьих, человек не галлюцинирует (ну, по крайней мере большинство), а за галлюцинации в тесте снимались балы. В-четвертых, LLM выполняли задачу от нескольких секунд до нескольких минут, а человек решал задания 2 дня full-time. Время в тесте не учитывалось, поэтому сравнение не релевантное. Я планирую организовать в ближайшем будущим тест с группой бизнес-аналитиков, в сопоставимых для сравнения условиях, после этого напишу о результате.

В AutoML есть две стадии отбора методов (разные регрессии, бускинги и т.д.). Имелось введу, что наряду с этими методами можно встроить в AutoML другие AutoML-и (HPO-centric типа), т.е. [метод_1, метод_2, метод_3,..., метод_N, AutoML_1, AutoML_2,..., AutoML_N] и MOEX AutoML будет отбирать , при лучшем значении целевой метрики либо метод (регрессию, бустинг, сетку и т.д.) либо AutoML. Поэтому "AutoML поверх AutoML ".

Результаты AutoML - это НЕ одна конкретная модель, а множество уникальных моделей для каждой тестовой метрики ( в тестовом случае 1150 разных ML-моделей для moc-датасета и 11 для реальных данных). AutoML нужен был, чтобы не ставить одну модель сразу на все метрики (таргеты), а для каждой метрики (таргета) была своя максимально подогнанная под метрику качества модель. Руками перебрать около пятидесяти тысяч вариантов моделей для каждой метрики (метод + гиперпараметры + стекинг) + огромнейшее число различных фичей (все сочетания фичей для каждого варианта модели) - не реально, а вот AutoML с эти легко справляется.

Information

Rating
829-th
Registered
Activity

Specialization

Ученый по данным
Ведущий
Python
SQL
Git