Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.
Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control, который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента.
Что такое LM Arena и зачем она нужна
Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench).
На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.
Обычно, если модель попала в топ-5 арены, это сигнал: «стоит изучить её поближе». На рейтинг ориентируются как обычные пользователи, так и специалисты, которые внедряют модели в продукты, автоматизируют процессы, развивают внутренних ИИ-ассистентов или отвечают за выбор моделей в рамках R&D. Конечно, после этого бизнесы запускают собственные проверки, но Arena удобна для первой оценки.
Проблема первая: мы любим красивые ответы
В июле 2024 года произошёл интересный случай. Маленькая модель GPT-4o-mini неожиданно оказалась на втором месте рейтинга, хотя качество ее ответов вне арены было не таким впечатляющим. Анализ, проделанный командой LM Arena показал, что пользователи выбирали более длинные и красиво оформленные ответы, даже если они были менее точными.
Тогда разработчики площадки ввели специальный фильтр — Style Control. Его суть проста: из рейтинга убрали влияние «красивых» элементов — длины текста и форматирования (например, списки и выделения). После этого GPT-4o-mini и похожие модели резко упали, потеряв до 30 Elo-очков, а более «сухие» модели вроде Claude 3.5 Sonnet и Llama 3.1 поднялись вверх.

Что ещё влияет на рейтинг
Чтобы показать, какие запросы формируют рейтинг, команда арены запустила интерактивный Arena Explorer. Инструмент автоматически группирует тысячи пользовательских вопросов в тематические кластеры и показывает, как распределяются интересы аудитории: большую часть дуэлей составляют запросы по разработке и техническим темам, за ними следуют математика, креативное письмо, ИИ‑инновации и раздел «общие знания». Explorer помогает обнаружить смещения в наборе вопросов и понимать, насколько результаты арены релевантны именно вашей задаче. Подробнее про инструмент в статье.

Проблема вторая: эмоции решают
Весной 2025 года ситуация повторилась, уже с новой моделью — Llama 4 Maverick. Она быстро заняла второе место, но многие пользователи API посчитали, что качество её ответов не дотягивает до столь высокого рейтинга. Выяснилось, что на арену выложили специальную «эмоциональную» версию модели, активно использующую позитивные эмоции, смайлики и восклицания.
Команда LM Arena подтвердила этот эффект, выложив 2000 примеров сравнений. Оказалось, что позитивные и эмоциональные ответы выигрывают до 64% дуэлей против нейтральных, даже если фактически они хуже.
Sentiment Control — фильтр эмоций
Чтобы сделать рейтинг ещё честнее, команда LM Arena решила нейтрализовать влияние эмоционального тона. Для этого они создали новый фильтр — Sentiment Control. Он оценивает ответы моделей по двум параметрам:
- Количество смайликов в ответе.
- Эмоциональный тон (от «очень негативного» до «очень позитивного»), который определяет нейросеть Gemini-2.0-flash.
Классификация эмоций проводится строго по стилю ответов модели, игнорируя содержание и пользовательские сообщения.
Доступность. Пока Sentiment Control работает в режиме превью: результаты можно увидеть в отдельной экспериментальной таблице и в Colab‑ноутбуке из блога. Команда обещает внедрить переключатель «Style + Sentiment Control» прямо в основной интерфейс арены в ближайших релизах.
Основные выводы исследования
После введения Sentiment Control эмоциональные модели вроде Llama 4 Maverick и Grok-3 потеряли около 40 Elo-очков. Напротив, сдержанные модели вроде Claude 3.7 заметно выросли, заняв высокие позиции.
Несколько важных выводов из анализа:
- Позитивный тон действительно помогает модели получать больше лайков (+0.029 Elo-очков), но не так сильно, как длина текста (+0.238).
- Использование эмодзи почти не влияет или даже слегка ухудшает выбор пользователя (-0.004).
- Нейтральный тон — самый непопулярный (-0.026 Elo-очков). Люди предпочитают хоть какой-то эмоциональный окрас.

Интересные детали
Анализ парных сравнений дал неожиданные результаты:
- Очень негативный тон побеждает просто негативный в 65% случаев и нейтральный — в 54%. Это происходит в сценариях вроде «пошути надо мной» или «покритикуй меня», когда пользователям нравится резкость и сарказм.
- Нейтральный тон проигрывает всем, кроме негативного, подтверждая, что пользователям важна эмоциональная вовлечённость.
- Очень позитивный тон оказался самым эффективным, выигрывая у негативного в 78% и у нейтрального в 64% случаев.
Выводы
Как использовать эти результаты в повседневной работе с LLM‑моделями:
Смотрим на «чистый» рейтинг. Оценка с учётом Style и Sentiment Control ближе всего к реальному «мозгу» модели.
Подбираем тон под задачу. Для техподдержки пригодится умеренно позитивная модель; для технической документации — более нейтральная и лаконичная.
Заключение
Sentiment Control — это ещё один шаг к честной оценке качества языковых моделей. Теперь ясно, что влияет на выбор пользователей больше: оформление, эмоции или фактическое содержание.
Главное помнить: важно не то, сколько смайликов ставит модель, а насколько полезен её ответ.
Если тема LLM вам близка, загляните в мой tg-канал — там я коротко делюсь свежими находками, тестами и рабочими приёмами, которые сам применяю в реальных проектах.