На учебных курсах часто задают вопрос: «Вы что‑то понимаете в LLM, поэтому скажите — какая LLM лучше?» Правильного ответа на этот вопрос нет. Число LLM растет в геометрической прогрессии, идет специализация, как по типу обрабатываемого контента, так и по области применения. Вдобавок возможности LLM растут от версии к версии, поэтому идеальной LLM не существует, ведь выбранная модель может показывать хорошие результаты по одним задачам, но плохо работать по другими. Данная статья — это лишь мой взгляд на инструменты выбора и вызова LLM, а также возможность получить бесплатный доступ из России к множеству LLM через агрегаторы.
Лидерборды и агрегаторы LLM
На текущий момент времени наиболее реальным вариантом для принятия решения, какая LLM подходит под вашу задачу, является анализ динамических лидербордов, которые показывают возможности LLM на текущую дату. Ли��ерборд — это набор тестов для LLM, результаты которых визуализируются в виде рейтинга. На лидерборде LLM оценивается по ряду метрик качества (бенчмарков).
При выборе LLM можно ориентироваться на метрики, наиболее соответствующие задаче, для решения которой планируется использовать LLM, поэтому большинство лидербордов снабжены интерфейсом, позволяющим фильтровать списки LLM по различным параметрам.
Кстати, как и в любом процессе построения рейтингов, тут есть нюансы. Так как единого стандарта для оценки LLM просто нет, в разных лидербордах оценки проводятся по разным параметрам — поэтому ключевым требованием для лидерборда является открытость процедуры оценки, так как модели могут оцениваться разработчиками, заинтересованными в победе их LLM.
LMArena
Для работы с LLM в интерфейсе мне приглянусь lmarena.ai (ранее известная как chatbot arena). На ней лидерборд собирается по отзывам пользователей, которые в «слепом» режиме, задают свой вопрос нескольким LLM, и получив ответ, выбирают какая из моделей ответила лучше. Принцип анонимного парного сравнения с привлечением большой аудитории сделал ее популярной не только среди пользователей, но и среди разработчиков, которые тестируют на ней новые версии LLM.

Вопрос пользователя задается двум чат‑ботам, названия которых скрыты. После ответа пользователь голосует за лучший ответ, только после этого раскрываются названия LLM. В сервисе можно самостоятельно выбирать модели для сравнения.
А для российских пользователей этот сервис дает прекрасную возможность использовать любую LLM, подключенную к LMArena, перейдя в соответствующий режим. В части открытости тут все прозрачно, так как алгоритмы обработки результатов доступны для анализа.
Если хотите работать с разными LLM через пользовательский интерфейс, то LMArena — хороший выбор, однако помните, что вводимые данные уходят вне России, поэтому в рабочих процессах использование такого сервиса не рекомендуется.
Кстати, есть и клон зарубежного сервиса под названием на сайте llmarena.ru — это открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке.
Для информации: LMArena разработана группой LMSYS — исследователями из UC Berkeley, Carnegie Mellon University и UC San Diego. В 2025 году проект выделился в отдельную компанию.
OpenRouter
Для выбора LLM для построения AI‑агентов я применяю openrouter.ai. С помощью системы фильтров можно выбрать LLM под задачу, в том числе используя бесплатные версии LLM для тестирования их работы.
Есть еще множество агрегаторов, но в связи с тем, что этот сервис легко подключается в n8n, который я использую в качестве отдельной штатной ноды (узла), после чего встраивается в исполняемый процесс. Сервис OpenRouter предоставляет API, через который можно получить доступ к более чем 300 моделям от 50+ поставщиков.

В OpenRouter есть интерфейс выбора LLM под задачи, в рамках которого можно фильтровать модели по нескольким параметрам, который я часто использую.
Если хотите выбрать и использовать LLM для работы AI‑агентов, то для тестирования OpenRouter будет неплохим выбором; правда, для реального использования AI‑агентов в бизнесе придется возиться с локальной инсталляцией выбранных LLM, если таковая возможность для них предусмотрена.
Внутри OpenRouter есть свой лид��рборд, но он отображает результаты не качества работы LLM по тестам, а активность ее использования на сервисе.

Для информации: OpenRouter основан в начале 2023 года, позиционирует себя как API‑хаб для языковых моделей, зарегистрирован в США
Hugging Face
Наиболее интересным проектом сейчас является платформа компании Hugging Face, которая претендует на позицию лидера рынка. Фактически Hugging Face — это агрегатор LLM, где есть возможность не только сделать вызов той или иной LLM, а также тестировать разные модели, но и разрабатывать свои. Присутствующие LLM на платформе можно использовать бесплатно и даже запускать на виртуальном сервере Hugging Face.
Здесь размещены сотни тысяч LLM с открытым исходным кодом, которые разработчики могут использовать для создания своих приложений.

Пользователи могут работать не только с LLM, но и с наборами данных для их обучения, которые тоже размещены на платформе, также можно анализировать все модели, размещенные на платформе для последующего использования.
Для российских пользователей Hugging Face это еще одна возможность применить любую модель, однако, с учетом того, что сервис находится на хайпе, приходится долго ждать ответа от LLM, а некоторые LLM просто выдают ошибку при обращении.
И кстати, на сайте Hugging Face уже появился реестр лидербордов, что само по себе уже интересно. Некоторые уже считают Hugging Face лидером в данной области, ведь на нем доступен десяток бенчмарков под названием The Big Benchmarks Collection.
Для информации: Hugging Face, Inc. — это американская компания, основанная в 2016 году для разработки приложения для чат‑ботов, но впоследствии сфокусировавшаяся на создании платформы для применения LLM.
А что в России?
У нас есть свой лидерборд MERA. Бенчмарк MERA создан для оценки русскоязычных языковых моделей.
Внутри лидерборд разделяется на:
бенчмарк для современных текстовых русскоязычных моделей, ссылка
отраслевой бенчмарк (пока есть медицина и сельское хозяйство) для современных русскоязычных LLM, ссылка
бенчмарк для современных кодовых LLM, ссылка
Сразу скажу, мне пока предстоит начать применять данный лидерборд, для меня это задача на будущее, но с учетом тренда на импортозамещение — этому проекту стоит обратить внимание.

Для информации: Лидерборд MERA создан в 2023 годы под эгидой Ассоциации «Альянс в сфере искусственного интеллекта», которая объединяет российские технологические компании: Сбер, «Газпром нефть», Яндекс, VK, РФПИ, Сибур, Уралхим, Русагро, Северсталь, ГК Самолет. В создании бенчмарка принимали участие SberDevices, Sber AI, MTS AI, НИУ ВШЭ и «Сколтех».
Отдельную статью про лидерборд MERA можно посмотреть тут.
В качестве заключения
С точки зрения стратегии применения LLM, конечно, интересно, но такое бурное их развитие не позволяет «опереться» на ту или иную LLM, особенно если планируется развертывать LLM локально, что и требуется для подавляющего большинства задач внутри корпорации. Ведь разворачивая LLM у себя, и настраивая ее под свои задачи, вы «отрываетесь» от прогресса в этой области, так как следующая версия LLM будет заведомо сильнее текущей, что снова потребует перенастройки локальной версии LLM при обновлении. Поэтому пробовать нужно, но внедрять нужно с осторожностью, понимая как ограничения LLM, так и тренды их развития.
Данная статья точно не претендует не полный обзор темы лидербордов/бенчмарков в области LLM, поэтому рекомендации, на что еще обратить внимание в комментариях приветствуются!
Динамика LLM быстро переводит фокус с вопроса «какая модель лучше» на более приземлённый: как спроектировать архитектуру, которая переживает смену моделей и не разваливается под нагрузкой. Если хочется разбираться в этом на уровне RAG, AI-агентов, MLOps-конвейеров, векторных БД и оптимизации инференса, пригодится профильный курс по архитектуре AI-решений, который системно учит проектировать и доводить такие системы до продакшена.
Чтобы узнать больше о формате обучения и познакомиться с преподавателями, приходите на бесплатные демо-уроки:
2 декабря: Основы построения архитектуры инфраструктуры AI-сервисов. Записаться
15 декабря: Тренды стрессоустойчивого проектирования: composable architecture. Записаться
