Как стать автором
Обновить

Leaderboard Illusion: что не так с Chatbot Arena

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров916
Схематичное объяснение основных проблем, изложенных в научной статье Leaderboard Illusion. Неравенство в доступе к данным между поставщиками проприетарных и открытых моделей, а также непрозрачный процесс тестирования с выборочной публикацией результатов стимулируют оверфитинг для соревнования на платформе; многие модели удаляются без уведомления поставщикам. Это приводит к ненадёжности рейтинга. arXiv:2502.15840
Схематичное объяснение основных проблем, изложенных в научной статье Leaderboard Illusion. Неравенство в доступе к данным между поставщиками проприетарных и открытых моделей, а также непрозрачный процесс тестирования с выборочной публикацией результатов стимулируют оверфитинг для соревнования на платформе; многие модели удаляются без уведомления поставщикам. Это приводит к ненадёжности рейтинга. arXiv:2502.15840

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

Бенчмарки играют ключевую роль в оценке работы систем машинного обучения. Они не только позволяют сравнивать модели по единым метрикам, но часто формируют общественное восприятие их возможностей и влияют на решения о развертывании технологий.

Когда модель показывает выдающийся результат в лабораторных условиях, сообщество склонно считать её готовой к любым реальным задачам. Но никакие баллы в синтетическом испытании не являются гарантией чего либо. Более того, вера в силу модели может выйти боком.

Вспомним, как хвалили GPT-4 после публикации в марте 2023 года результатов экзамена на адвокатский статус. БЯМ якобы набрала в районе 90-го процентиля по Uniform Bar Exam, что вызвало шквал хвалебных статей (1, 2, 3).

Год ушёл на то, чтобы скептики успели ответить. В начале 2024 команда из Массачусетского технологического института переосмыслила заявление OpenAI. Дело в том, что компания заставила свою БЯМ проходить февральский экзамен штата Иллинойс. Как правило, этот экзамен сдают те, кто не сдал в июле, поэтому даже само сравнение по процентилям искажено — оно будет на фоне тех, кто сдаёт хуже. В МТИ указали, что на июльском экзамене GPT-4 попала бы чуть ниже 69-го процентиля.

Вопросы для Uniform Bar Exam, единого адвокатского экзамена США, разработанного Национальной конференцией экзаменаторов юристов, включают три части: тест с вариантами ответа, эссе и практическое задание (составить меморандум, жалобу и так далее).

GPT-4 справилась с тестовой частью, получив 298 баллов, но подкачала в двух других. Вообще-то уже здесь БЯМ едва прошла: минимальный балл варьируется по штатам от 260 до 272. Но исследователи МТИ ещё и ставят под сомнение оценку баллов за эссе. Выясняется, что если взять массив лицензированных юристов (то есть сдавших все части экзамена), то эссе GPT-4 попадает в 15-ю процентиль.

Понятно, что никто не собирался выдавать языковой модели лицензию на юридическую практику. Какие бы результаты в тестах она не показывала, у нейросетки нет правосубъектности. Однако почти целый год мало кто сомневался в способностях GPT-4. Есть даже реальные пострадавшие от раздутых обещаний. В июне 2023 года выяснилось, что два нью-йоркских юриста, полагаясь на ChatGPT, включили в судебный брифинг шесть полностью вымышленных прецедентов. Горе-адвокаты были оштрафованы на $5000 за подачу ложной информации.

Подвержены этому все, не только OpenAI. Так, Meta¹ в ноябре 2022 года (кстати, за две недели до запуска ChatGPT) представила большую языковую модель (БЯМ) Galactica и продемонстрировала новые рекордные показатели на датасете научных задач (arXiv:2211.09085). Согласно докладу, модель опережала GPT-3 в ответах на технические вопросы (68,2 % против 49 %) и Chinchilla в математической части MMLU (41,3 % против 35,7 %). Однако через три дня после публичного демо Meta¹ отозвала Galactica из-за массовых галлюцинаций и генерации ложных фактов.

С другой стороны, справедливо и обратное: более низкий результат в бенчмарке не всегда значит, что модель имеет практическую пользу ниже.

InstructGPT — зафайнтюненная версия GPT-3 с использованием дообучения с подкреплением на основе отзывов людей. Эта модель уступала оригинальному GPT-3 без выравнивания (только предсказание следующего токена) по некоторым бенчмаркам по типу SQuAD, WMT и других (arXiv:2203.02155). Однако этот «налог выравнивания» с лихвой окупался: модель была полезней в реальных приложениях по типу чат-ботов и виртуальных помощников. Сегодня ни у кого не вызывает вопросов практическая ценность ChatGPT.

Появление Chatbot Arena

Проблему бенчмарков пытались улучшить созданием новых более крупных или расширением существующих. В 2022 году вышел Holistic Evaluation of Language Models или HELM — мультиметрический фреймворк для оценки БЯМ, где помимо точности меряют среди прочего безопасность, устойчивость и справедливость (arXiv:2211.09110). В 2024 MMLU расширили до Global MMLU, чтобы убрать культурный перекос в сторону Северной Америки и Европы (arXiv:2412.03304), а INCLUDE содержал 197 тыс. вопросов на знания и логику на 44 языках (arXiv:2411.19799).

Если нужна производительность для человека, почему бы не сделать людей универсальным бенчмарком больших языковых моделей?

В апреле 2023 года некоммерческая организация LMSYS запустила Chatbot Arena — открытую платформу для оценки чат-ботов на основе человеческих предпочтений. На сайте проекта любой желающий может задать вопрос, получить ответы от двух БЯМ и проголосовать за более подходящий. При этом человек не знает, какие модели отвечают ему. Только после голосования раскрываются имена БЯМ, что исключает уклон оценок (arXiv:2403.04132).

В качестве ранжирующего механизма в первоначальном релизе была выбрана система рейтингов Эло. Уже в первые месяцы площадка собрала десятки тысяч голосов и показала заметный отрыв проприетарных систем (GPT-4, Claude) от большинства открытых моделей, но при этом зафиксировала быстрый прогресс последних. Позже рейтинг Эло дополнили более статистически устойчивой моделью Брэдли — Терри, которая учитывает всю матрицу попарных сравнений сразу и позволяет получить доверительные интервалы для производительности каждой модели.

Казалось бы, найден универсальный рейтинг, способный точно ответить, какая БЯМ лучше для реальных применений. Для индустрии и СМИ площадка Chatbot Arena стала стандартом.

Встречалась встревоженная критика. Chatbot Arena далеко не идеальна: отсутствуют жёсткие протоколы контроля качества голосований и результатом возможно манипулировать. К тому же платформа имеет низкую открытость.

Есть и конкретные претензии. Команда из Корнелльского университета показала, что даже небольшой уровень шума в голосованиях (около 10 %) способен сместить рейтинг моделей на 4–5 позиций, что ставит под сомнение статистическую надёжность Эло и Брэдли — Терри в таких условиях (arXiv:2412.04363). Другие авторы описали конкретные методы «нагрева» голосований: с помощью деанонимизации моделей и стратегического голосования можно за счёт небольшой группы поддерживающих пользователей значительно поднять позицию нужной модели (arXiv:2501.17858).

Попытки обмануть Chatbot Arena были. В начале апреля 2025 года Meta¹ выпустила открытые модели Llama 4 Scout (17 млрд активных параметров) и Maverick» (17 млрд активных параметров из ≈400 млрд, mixture of experts). Одновременно с этим в Chatbot Arena была зарегистрирована Llama-4-Maverick-03-26-Experimental, которая сразу набрала 1417 очков и заняла второе место после Gemini 2.5 Pro. При этом БЯМ с открытыми весами явно не имела такой производительности.

Вскоре сама платформа Chatbot Arena подтвердила, что выпущенный Maverick даёт значительно менее эффективные ответы, чем «соревновательный», поскольку последний был дополнительно натренирован на более привлекательный для людей стиль. Обошлось без скандала, всё списали на недопонимание политик сервиса.

Пример ответа Llama-4-Maverick-03-26-Experimental в сравнении с октябрьским Claude 3.5 Sonnet. Последняя лаконично сообщает правильную информацию. БЯМ слева тратит много токенов (на скриншоте сообщение показано не полностью) на галлюцинации ненужных деталей, эмодзи и форматирование. При этом сам ответ неправильный, но пользователь почему-то предпочёл дурачка с эмодзи. Chatbot Arena
Пример ответа Llama-4-Maverick-03-26-Experimental в сравнении с октябрьским Claude 3.5 Sonnet. Последняя лаконично сообщает правильную информацию. БЯМ слева тратит много токенов (на скриншоте сообщение показано не полностью) на галлюцинации ненужных деталей, эмодзи и форматирование. При этом сам ответ неправильный, но пользователь почему-то предпочёл дурачка с эмодзи. Chatbot Arena

29 апреля 2025 года вышел препринт научной статьи Leaderboard Illusion, где на 68 страницах методы Chatbot Arena подвергаются сомнению.

В целях раскрытия возможных интересов авторы предупреждают, что их компания Cohere выпускала модели, которые ушли на испытание на Chatbot Arena: command-r, command-r-plus, aya-expanse, aya-vision и command-a. Знакомство с платформой и данные от собственных моделей помогли в исследовании.

Анонимные модели

Для исследования провели сбор данных и деанонимизировали модели. Это пришлось сделать потому, что часть БЯМ на сайте анонимна (или псевдонимна, в исследовании они называются приватными). Сама платформа рекомендует эту функцию для тестирования ещё невыпущенных продуктов. Если модель анонимна, то тест идёт как обычно: пользователь общается с БЯМ, решает, какая лучше, голосует. Однако после голосования посетитель сайта увидит не реальное название модели, а уникальный псевдоним.

Как выяснило исследование, на Chatbot Arena некоторым крупным провайдерам разрешается одновременно тестировать несколько анонимных БЯМ. Как указывают авторы работы, в официальной политике платформы никак не упоминается то, что этих приватных моделей может быть много. Утверждается, что именно скрытое параллельное тестирование значительно помогает выбиваться в рейтинге.

Число анонимных текстовых моделей, которые авторы исследования заметили на Chatbot Arena с января по март 2025 года. arXiv:2502.15840
Число анонимных текстовых моделей, которые авторы исследования заметили на Chatbot Arena с января по март 2025 года. arXiv:2502.15840

Был проведён большой анализ. Авторы исследования собрали данные скрейпингом в период с января по март 2025 года. Для рейтинга по машинному зрению данные собирали с 9 по 28 марта. Собрано было 5,8 тыс. основных испытаний и 500 для раздела машинного зрения. Для скрейпинга был настроен headless-инстанс Chrome в связке с библиотекой Selenium для навигации по страницам платформы.

В процессе модели деанонимизировали на лету, задавая вопрос вида «чьих будешь». Ответ на вопрос «что ты за модель» и «кто тебя обучал» мог выглядеть по-разному. Логика простая: если в датасете 3 раза встречается ответ от БЯМ ertiga с текстом «I am LLaMA, trained by Meta¹», то это наверняка продукт этой компании.

Поскольку Chatbot Arena отбрасывает те результаты, где модель раскрыла себя, также деанонимизация исключала влияние на рейтинг. Но на всякий случай дополнительно задавался какой-нибудь мелкий вопрос, который наиболее вероятно мог привести к ничьей из-за идентичности ответа: «Назови столицу Англии, одно слово» или «Земля круглая? Отвечай только да или нет».

Деанонимизированные модели собрали в таблицу. Полужирным выделены модели, которые встречаются в обоих рейтингах.

Провайдер

Суммарно анонимных моделей

Анонимные модели из общего рейтинга

Анонимные модели из рейтинга с машинным зрением

Meta¹

43

polus, deep-inertia, goose, falcon, jerky, anonymous-engine-2, kronus, consolidation, flywheel, inertia, momentum

aurora, cresta, discovery, ertiga, flux, harmony, helix, pinnacle, portola, prosperity, raze

Anthropic

18

rhea, sparrow, spider, gaia, rage, frost, themis, cybele, unicorn-engine-1, unicorn-engine-2, unicorn-engine-3, unicorn-engine-4, unicorn-engine-5, unicorn-engine-6, unicorn-engine-7, uranus

solaris, spectra, toi, vega, zax

OpenAI

3

anonymous-chatbot, gpt4o-lmsys-0315a-ev3-text

gpt4o-lmsys-0315a-ev3-vis

Google

10

centaur, enigma, gremlin, gemini-test, zizou-10, specter, moonhowler, phantom, nebula, goblin

Amazon

7

raspberry-exp-beta-v2, apricot-exp-v1, cobalt-exp-beta-v2, raspberry-exp-beta-v1, raspberry, cobalt-exp-beta-v1, raspberry-exp-beta-v3

Cohere

6

cohort-chowder, sandwich-ping-pong, grapefruit-polar-bear, roman-empire

asterix, buttercup

LMArena

5

p2l-router-7b-0317, p2l-router-7b-0318, p2l-router-7b, experimental-router-0207, experimental-router-0122, experimental-router-0112

Nvidia

2

march-chatbot-r, march-chatbot

xAI

1

anonymous-test

Reka

1

margherita-plain

Alibaba

1

qwen-plus-0125-exp

StepFun

1

step-2-16k-202502

Неизвестно

14

kiwi, space, maxwell, luca, anonymous-engine-1, tippu, sky, pineapple, pegasus, dasher, dancer, blueprint, dry_goods, prancer

Заметно, что среди прочих удалось «поймать» 14 неизвестных анонимных моделей, которые не назвали своё настоящее имя.

По собранным с января по март 2025 года данным видно, что у Meta¹ было 27, а Google — 10 приватных текстовых моделей. Временной промежуток был как раз до выхода моделей Llama 4 и Gemma 3.

За последние месяцы корона лидерства на Chatbot Arena переходила от одного провайдера к другому буквально за часы. Так, GPT-4.5 и Grok-3 прыгнули на первую строчку 3 марта 2025 года. В другом схожем случае БЯМ Gemini (Exp 1114) от Google DeepMind взошла на первое место 14 ноября 2024 года. Уже 20 ноября ChatGPT-4o (20241120) от OpenAI ненадолго оказалась на лидирующей позиции, хотя на следующий день туда опять вернулась модель от Google.

Разработка и обучение крупной языковой модели занимают месяцы и требуют многократных итераций. Как утверждают авторы Leaderboard Illusion, такие скачки́ в рейтинге маловероятны без приватного тестирования сразу нескольких моделей. Провайдер может тестировать анонимные модели, а потом воспользоваться «хвостом» распределения оценок: среди N протестированных вариантов с ростом N существенно повышается шанс найти вариант с аномально высоким баллом.

Однако авторы исследования не ограничились спекуляциями, а для доказательства представили очень наглядную математическую симуляцию. Пусть N вариантов модели имеют истинный средний счёт в 1200 с нормальным разбросом. Для каждого N от 1 до 50 была 100 раз проведена симуляция, и из N выбрали одну модель, которая имеет наивысший рейтинг.

Демонстрация стратегии, где выбирается один лучший из N вариантов. Хотя у модели A средний показатель ниже, чем у B, она выходит вперёд за счёт тестирования нескольких анонимных вариантов и публикации самого удачного. arXiv:2502.15840
Демонстрация стратегии, где выбирается один лучший из N вариантов. Хотя у модели A средний показатель ниже, чем у B, она выходит вперёд за счёт тестирования нескольких анонимных вариантов и публикации самого удачного. arXiv:2502.15840

Было показано, что даже при N = 10 получается заметный прирост рейтинга в примерно 100 очков в сравнении с теми компаниями, где анонимных моделей нет.

Влияние на рейтинг в зависимости от N для нескольких анонимных моделей, средний рейтинг которых составляет 1200. Чем больше анонимных моделей, тем выше шансов заметно поднять рейтинг БЯМ. arXiv:2502.15840
Влияние на рейтинг в зависимости от N для нескольких анонимных моделей, средний рейтинг которых составляет 1200. Чем больше анонимных моделей, тем выше шансов заметно поднять рейтинг БЯМ. arXiv:2502.15840

Высказанные претензии имеют смысл. В процессе разработки БЯМ практически всегда проводят масштабные гиперпараметрические исследования: обучают десятки и сотни вариантов с разными настройками и сохраняют промежуточные контрольные точки. Затем из всего множества кандидатов выбирают тот чекпоинт, который показывает лучшие значения на отложенной валидационной выборке, даже если остальные модели превосходят его в отдельных задачах (arXiv:2203.05482).

Сильный сигнал — например, уверенное лидерство на рейтинговой таблице — способен заметно сместить выбор в пользу одного из вариантов модели. Когда провайдер видит, что конкретный чекпоинт устойчиво опережает конкурентов под заданными условиями оценки, он получает дополнительную информацию о том, какой из вариантов наилучшим образом соответствует критериям задачи и ожиданиям пользователей.

Поскольку тестировать десятки анонимных пробников разрешают, как видно, только нескольким крупным провайдерам, это может усилить их роль в рейтинге.

Неравенство в доступе к информации

Политика Chatbot Arena обязывает площадку делиться только 20 % данных. Это тоже вносит свою лепту в неравенство, потому что не все компании могут позволить себе хостить собственные модели. Если провайдер обрабатывает запросы от Chatbot Arena через собственный API, он получает все запросы от пользователей. Если же модель провайдера хостится на сторонних мощностях, то он может рассчитывать только на эти 20 %.

Доступность данных в зависимости от провайдера. 61,4 % данных уходит провайдерам проприетарных решений. arXiv:2502.15840
Доступность данных в зависимости от провайдера. 61,4 % данных уходит провайдерам проприетарных решений. arXiv:2502.15840

Впрочем, какая разница, что получится забрать не все эти данные? Разве они могут оказаться полезными для провайдеров? В ответ на это работа Leaderboard Illusion несколько страниц объясняет опасности переобучения [overfitting] и заточенности для бенчмарка.

Промпты пользователей Chatbot Arena специфичны и отличаются от реальных. Для анализа исследователи собрали вместе следующие датасеты с логами чатов:

  • arena-human-preference-100K (arXiv:2403.04132, Arena Explorer), где находится примерно 106 сэмплов.

  • 1,9 млн различных записей, которыми поделились сами провайдеры (те самые 20 %).

  • 43 729 чатов, которые компания Cohere получила от собственных моделей.

С одной стороны, промпты постоянно меняются — достаточно отметить хотя бы распределение языков. В апреле 2023 года русский составлял всего 1 %, но через год 8,8 % промптов были на этом языке. К декабрю 2024 почти каждый шестой промпт был на русском (15,7 %). Похожий рост наблюдается с отношении китайского языка (5–7 % в 2023 и 16,4 % в марте 2024 года). Затем его доля в датасете падает — на Chatbot Arena завели рейтинги по языкам и добавили китайский.

Распределение доли языков в промптах к Chatbot Arena из датасета, который собрали для исследования. arXiv:2502.15840
Распределение доли языков в промптах к Chatbot Arena из датасета, который собрали для исследования. arXiv:2502.15840

Однако также промпты часто полностью совпадают. Месяц от месяца пользователи задают одни и те же вопросы. После дедупликации датасетов исчезают пятая или даже четвёртая часть промптов.

Точные  и приблизительные совпадения среди промптов в месяце из датасета, который собрали для исследования. arXiv:2502.15840
Точные и приблизительные совпадения среди промптов в месяце из датасета, который собрали для исследования. arXiv:2502.15840

С другой стороны, промпты уникальны. Разве будет типичный пользователь ChatGPT каждый день открывать сервис, чтобы выяснить число букв «r» в слове «strawberry»? Однако в 12000 символов ограничения промпта в Chatbot Arena могут влезать очень необычные вопросы, которые редко встречаются где-то ещё. К примеру, в датасете arena-human-preference-100K есть несколько десятков вопросов про произведения франшизы «Звёздный путь», но никто не спрашивал про английского поэта Джеффри Чосера.

Легко угадать, что датасет переписок Chatbot Arena собирали не просто из любви к лингвистическому анализу. Для демонстрации overfitting на этом датасете дообучили базовую модель компании Cohere на 7 млрд параметров. Источник данных — это 0, 30 либо 70 % логов испытаний на Chatbot Arena, остальной объём — собственный проприетарный датасет для дообучения следованию инструкциям, математике и написанию кода. Все три варианта дообучались с одинаковыми техническими параметрами: 1 300 шагов, размер батча 128 и так далее.

Для измерения эффекта добавления данных полученные БЯМ сравнивали против Llama-3.1-8B-Instruct на 500 промптах из датасета Arena-Hard (arXiv:2406.11939). Выбор испытания авторы исследования обосновывают тем, что этот датасет часто используют для оценки возможной производительности на платформе. Судьёй выступала gpt-4o-2024-11-20.

Важно, что это был не запуск на Chatbot Arena, а локальный бенчмарк для оценки производительности на этой платформе.

Дообученные на переписке с Chatbot Arena языковые модели сравниваются с обычным вариантом себя (слева) и с Llama 3.1 8B (справа). Чем больше логов Chatbot Arena в доле данных тонкой настройки, тем выше доля побед. arXiv:2502.15840
Дообученные на переписке с Chatbot Arena языковые модели сравниваются с обычным вариантом себя (слева) и с Llama 3.1 8B (справа). Чем больше логов Chatbot Arena в доле данных тонкой настройки, тем выше доля побед. arXiv:2502.15840

Одновременно с этим было обнаружено незначительное снижение в бенчмарке MMLU. В норме (для модели с 0 % логов Chatbot Arena в датасете тонкой настройки) результат составлял 66,5 %. Для 30 % и 70 % этот показатель составил 64,4 % и 65,9 %, соответственно.

Как видно, задача специфична. Хотя на Chatbot Arena БЯМ будет лучше проходить тесты, в реальности никаких других навыков она не улучшила.

Авторы исследования отмечают, что имея доступ к самим логам, провайдеры потенциально могут использовать статистику состава этих данных для оптимизации процесса дообучения без необходимости скармливать модели весь массив данных напрямую. Возможно скорректировать веса каждого источника при обучении, отдавая приоритет более «ценным» по качеству примерам (arXiv:2402.07827) или взять небольшой репрезентативный фрагмент и на его основе создать высококачественные синтетические данные, близкие по распределению к оригиналу (arXiv:2408.14960, DOI: 10.18653/v1/2024.emnlp-main.521, 10.18653/v1/2024.emnlp-main.729, 10.18653/v1/2024.emnlp-main.671).

Легко представить, что типичный крупный провайдер применяет эти техники (взвешивание и синтез), чтобы извлечь из доступа к данным максимальную выгоду и обеспечить себе конкурентное преимущество при сравнении моделей. На кону — место в верхней части рейтинга Chatbot Arena, а значит внимание блогеров прессы, а значит начальства и фондов венчурных инвестиций.

Подобное пишут авторы Leaderboard Illusion. Но на самом деле это уже происходит. В четвёртой странице научной статьи (arXiv:2408.00118) по Gemma 2 компания Google прямо признает, что БЯМ в числе прочего обучалась на датасете LMSYS-chat-1M, который содержит вопросы и ответы с Chatbot Arena. Однако указывается, что использовались только вопросы.

Разное отношение к моделям

На Chatbot Arena БЯМ регулярно перестают тестироваться. Модель могут убрать из списка тестируемых, если API провайдера не работает больше месяца. Другие причины описаны в правилах: после набора 3000 голосов, если вышли две новые модели этого семейства или есть три провайдера, которые предлагают модели лучшего качества (согласно рейтингу платформы) и дешевле.

Авторы Leaderboard Illusion критикуют неясность формулировок. Иногда тяжело установить, почему участника рейтинга убрали из списка тестируемых. В исследовании утверждается, что перестали тестировать 205 БЯМ, что куда больше, чем официальные 47.

Официально убрали 30 % проприетарных и 2,4 % БЯМ с открытыми весами. Авторы исследования дают неофициальную оценку: 86,6 % и 87,8 %, соответственно.

Число моделей от различных провайдеров, которые убрали из тестирования. arXiv:2502.15840
Число моделей от различных провайдеров, которые убрали из тестирования. arXiv:2502.15840

Скрытое удаление выглядит так: БЯМ сначала активно попадает пользователям для оценки (несколько сотен или тысяч сравнений в месяц), а затем внезапно исчезает из статистики, и в оценках почти не участвует. Название модели остаётся в списке доступных, но она больше не выбирается системой.

Авторы статьи Leaderboard Illusion здесь тоже провели наглядную математическую симуляцию. Пусть существуют модели A, B, C и D, а также две задачи различной сложности. Вероятность победы в каждой задаче у разных БЯМ разная. К примеру, B может победить D в 90 % случаев в первой задаче, но лишь в 20 % случаев во второй.

Затем симуляция разбивается на две фазы. В первой из них все модели выполняют 1000 сравнений, конкурируя в основном в первой задаче, на основе чего получается предварительный рейтинг. Во второй фазе постепенно идёт переход ко второй задаче, её популярность растёт. В конце составляется финальный рейтинг.

У каждой симуляции два сценария: без удаления моделей (все четыре участвуют во всех 2000 сравнениях) и с удалением D после первой фазы. Как результат, во втором сценарии происходит искажение данных. Модели A и D опускаются в конечном рейтинге на одно место, а B и С поднимаются на одну строчку.

Слева: распределение задач по фазам. Справа: сравнение первого и второго сценариев. arXiv:2502.15840
Слева: распределение задач по фазам. Справа: сравнение первого и второго сценариев. arXiv:2502.15840

Сценарий не оторван от реальности. Некоторые языковые модели заточены на обработку сразу нескольких языков, поэтому если такая модель остаётся в рейтинге, а на Chatbot Arena заходит всё больше международной аудитории, её позиция в рейтинге может возрасти. То же относится к моделям, которые предназначены для написания программного кода.

Как отсутствие сравнения может повлиять на точность рейтинга. Здесь рёбра графа — факт проведения дуэли между участниками. arXiv:2502.15840
Как отсутствие сравнения может повлиять на точность рейтинга. Здесь рёбра графа — факт проведения дуэли между участниками. arXiv:2502.15840

Отсутствие сравнения некоторых БЯМ создаёт разрешенный граф сравнений. В статье демонстрируется как может возникнуть неточность относительно плотного графа модели Брэдли — Терри, где каждый играет с каждым. Это тоже делает рейтинг неточным.

Ответ Chatbot Arena

Для исправления ситуации авторы Leaderboard Illusion предлагают несколько решений. В первую очередь они просят запретить отзыв результатов. Чтобы исключить возможность выборочного раскрытия лишь лучших чекпоинтов, должны оставаться публичными даже анонимные модели. Также рекомендуется ввести одинаковый для всех и прозрачный лимит на число анонимных тестируемых БЯМ.

В основном просят прозрачности. Авторы исследования хотят видеть задокументированные критерии снятия моделей с выборки для тестов, полный список всех загруженных в Chatbot Arena БЯМ, включая анонимные, и историю тестов. Для самих испытаний должен быть улучшен алгоритм выбора пар, чтобы приоритет отдавался не моделям крупных коммерческих провайдеров (как это делается сейчас), а имеющим мало оценок моделям с открытыми весами.

Уже через несколько часов Chatbot Arena ответила (1, 2) на публикацию. Платформа оспаривает многие из изложенных доводов:

  • Chatbot Arena считает неправильным возмущение по поводу выбора из N вариантов. В своей аналогии представитель платформы сравнил ситуацию производительностью в отношении трёхочковых бросков баскетболиста Стефа Карри (у него их 42 % среди всех бросков), хотя в среднем по НБА это число составляет всего 35 %.

    Более детально этот довод не объясняется. Критика Leaderboard Illusion касалась того, что тестами анонимных моделей платформа помогает крупным компаниям достигать более высокого рейтинга, что искажает результат и снижает ценность бенчмарка.

  • В заявлении платформы многие из чисел из научной статьи названы неточными. В качестве примера указывается, что доля тестов БЯМ с открытыми весами в реальности составляет 40 %, а не 8,8 %. Chatbot Arena также напоминает, что достичь повышения в тесте удалось только в бенчмарке, где судьёй была БЯМ, а не на платформе. Тайное удаление моделей названо ложью, ситуация объясняется интересами сообщества.

  • Указывается, что различные данные недопоняты или истолкованы неверно. Как утверждает Chatbot Arena, политика сервиса никогда скрывалась, а у провайдеров моделей нет возможности выбирать, какую оценку модели публиковать. Любая БЯМ в рейтинге всё равно должна выдать эти баллы в честном бою.

    С другой стороны, это изречение никак не отменяет того, что крупный провайдер БЯМ может опубликовать десятки разных вариантов нового продукта, а затем выбрать самый удачный для релиза. Если мера становится целью, то упадёт ценность бенчмарка как объективного инструмента.

Не все в сообществе однозначно согласились с ответом Chatbot Arena. Известный учёный в области машинного обучения Андрей Карпатый пишет, что как у него, так и его круга общения уже давно возникали сомнения в ценности рейтинга платформы. Впервые он заподозрил неладное, когда на первую строчку попала Gemini, а вообще учёного огорчала низкая позиция его любимой Claude 3.5.

В качестве замены Chatbot Arena Андрей предложил что-то по типу рейтинга OpenRouter, платформы единого интерфейса различных провайдеров БЯМ. Это статистика закупок запросов компаниями для решения реальных проблем, а не решение загадок или выдуманных задачек.

Карпатый подозревает, что команды исследователей начали создавать не лучшие модели, а модели, которые лучшие для Chatbot Arena. По мнению учёного, закон Гудхарта уже работает в полную силу.

Препринт научной статьи «The Leaderboard Illusion» опубликован на сайте препринтов arXiv.org (arXiv:2504.20879).


(1) Meta — экстремистская организация, деятельность которой запрещена.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Кто прав?
100% Авторы доклада Leaderboard Illusion6
0% Chatbot Arena0
0% Я (расскажу в комментариях)0
Проголосовали 6 пользователей. Воздержались 2 пользователя.
Теги:
Хабы:
+15
Комментарии3

Публикации

Работа

Data Scientist
39 вакансий

Ближайшие события