Articles / Profile of Ser

Ser_no Apr 24 at 13:33

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Easy

4 min

842

Битрикс24 corporate blogArtificial Intelligence

Review

Как фильтры стиля и настроения меняют рейтинг LM Arena

Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.

Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control, который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента.

Что такое LM Arena и зачем она нужна

Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench).

На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

+11

Ser_no Oct 15 2024 at 09:18

От контекста до юрисдикции: 7 ключевых параметров при выборе LLM для вашего проекта

Easy

11 min

Битрикс24 corporate blogArtificial Intelligence

Review

Год назад казалось, что достаточно просто выбрать GPT-4 — и все проблемы с ИИ решены. Сегодня же рынок языковых моделей напоминает зоопарк, где каждый день появляются новые экзотические виды. Claude, Gemini, Mistral, Qwen — и это только верхушка айсберга.

Как в этом безумном мире нейросетей выбрать ту самую, которая подойдет именно вам? Как не утонуть в терминах, характеристиках и не выкинуть деньги на ветер? В этой статье мы разберем ключевые параметры LLM без лишней воды и заумных терминов — чтобы вы могли принять взвешенное решение и сэкономить время, нервы и бюджет на внедрении модели.

+13