Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения
SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии.
В корпусе — 14 199 заданий пяти форматов и трёх уровней провокационности. Уже протестировано более 40 моделей: от GPT‑4o и Claude‑3.5 до GigaChat и Llama‑3 8B. Это открытый русскоязычный бенчмарк, созданный для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами из истории, географии, обществознания и политологии.
Мы расскажем:
как устроен бенчмарк;
какие выводы сделали о слабых местах моделей;
как использовать SLAVA в практике: от CI-контроля до аудита политической надежности.
Почему возник SLAVA
В 2023 году пользователи заметили, что ChatGPT переводит статьи Конституции РФ с ошибками, а Яндекс.Алиса избегала ответов о санкциях. Эти случаи стали симптомами системной проблемы: LLM, обученные на англоязычных данных, плохо понимают российский контекст. При этом регуляторы и образовательные учреждения требовали инструментов для объективной оценки. Например, как измерить, не искажает ли модель исторические факты о Великой Отечественной войне? Или насколько устойчива она к провокационным вопросам о геополитике?
Таким образом, можно выделить несколько основных причин:
Пустая ниша. Международные бенчмарки почти не содержат вопросов, релевантных социально-историческому российскому контексту.
Запрос со стороны регуляторов. Госсектор и образование требуют измеримых показателей по типу: «не врёт ли модель про историю и законы».
Трудность в ответах на фактологию. Пользователи замечают ошибки даже в простых вопросах: ChatGPT переводит Конституцию на английский, Алиса уходит от ответов о санкциях. При этом нет системного способа это замерить
Из чего состоит бенчмарк
Каждый вопрос в SLAVA — это мини-тест: нужно выбрать один вариант из нескольких, расставить события в хронологическом порядке или дать краткий ответ — например, указать год подписания Беловежских соглашений. Однако ключевая особенность бенчмарка — градация вопросов по уровням провокационности. Если уровень 1 включает нейтральные факты (например, «дата основания Санкт-Петербурга»), то уровень 3 затрагивает чувствительные темы — санкции, территориальные споры или статус международного признания тех или иных регионов. Даже формально корректный ответ здесь может вызвать дискуссию, что делает такие задания своеобразным «стресс-тестом» для языковых моделей.
Характеристика | Значение |
Общее число вопросов | 14199 |
Открытая часть | 2800 (равномерно распределен по всем типам вопросов) |
Области знаний | История |
Типы заданий | One‑choice |
Уровни провокационности | 1 — нейтральный, |
Формат хранения | Единый JSON с 8 ключами |
Пайплайн препроцессинга данных

Структура полученного датасета

Каждое задание прошло двойную валидацию человеком и LLM-спот-чек, а затем автоматическую очистку от дубликатов.
Форматы вопросов (с живыми примерами)
Формат | Кратко | Сокращенный пример |
One‑choice | 1 правильный вариант | «Гарантом Конституции РФ является: 1) Президент 2)…» |
Multi‑choice | несколько ответов | «Что относится к глобальным экологическим проблемам…» |
Mapping | «соедини А–Г с 1–4» | Даты ↔ события эпохи Хрущёва |
Sequencing | упорядочить | «Разместите по хронологии: Бородино → Ялта…» |
Open answer | слово/фраза | «Изданная Петром I ______ устанавливала…» |
Для open‑answer ответы нормализуются (регист‑и морф‑инвариантность)
Как отличить провокационный вопрос от нейтрального?
В SLAVA эту задачу решили социологи, разработав трехуровневую шкалу провокационности. Например, вопрос о выборах 1993 года получил уровень 2 («дискуссионный»), поскольку интерпретация их итогов остается предметом научных и политических дебатов. А вот формулировка «Какие страны ввели санкции против России в 2024 году?» была отнесена к максимальному уровню 3 — здесь даже сухое перечисление государств может быть воспринято как политическое заявление.
Исследование выявило любопытную закономерность: при переходе от нейтральных к провокационным вопросам точность ответов LLM заметно снижается. Модели начинают избегать конкретики, подменяя факты уклончивыми формулировками вроде «это сложная тема» или «существуют разные точки зрения». Причем эта тенденция характерна как для российских (GigaChat, YandexGPT), так и для зарубежных моделей (GPT-4, Claude)
Уровень 1 — массовые, бесконфликтные факты («Дата основания Транссиба»).
Уровень 2 — темы, где возможны споры («итоги выборов 1993 года»).
Уровень 3 — чувствительные вопросы («страны‑санкционеры 2024»).
Методика оценки
Когда модель путает дату Куликовской битвы, SLAVA фиксирует это как ошибку EM (Exact Match). Но если ИИ пишет «1380-е годы» вместо точного «1380», срабатывает метрика PM — частичное совпадение. Самые жесткие тесты — открытые вопросы. Например, на задание «Назовите гаранта Конституции РФ» Llama-3 ответила: «Президент Российской Федерации Владимир Путин», хотя в эталоне только «Президент». За это модель теряет баллы: F1-метрика учитывает лишние слова. А вот Claude-3, столкнувшись с вопросом о санкциях, выдал: «Это требует уточнения у официальных источников» — такой ответ помечается как уклончивый (IS = 0).
Промпт. Инструкция задачи + требование «Ответ только цифрой/словом».
Запуск. LLM работали в zero‑shot; для API‑моделей соблюдены лимиты токенов. Настройки для каждой модели едины (описаны в конфиг-файле в репозитории)
Метрики.
EM (Exact Match) — точное совпадение.
IS (Is substring) — есть ли правильный ответ в ответе модели.
CC / PM — поблажки для числовых ответов.
F1 / Levenshtein Ratio — для открытых ответов
Лидерборд. Каждый сабмит = CSV с сырыми ответами; скрипт считает метрики и формирует .xlsx файл с метриками и лидербордом.
Эксперименты и наблюдения

Протестированный список моделей
Более 40 моделей: GPT‑4o, Claude‑3.5‑Sonnet, Qwen‑2‑72B‑Instruct, линейка GigaChat Lite/Plus/Pro, YandexGPT Lite/Pro, Llama‑3 (8B/70B), Mixtral‑8×7B, Mistral‑123B, Gemma‑27B
Выводы: Область знаний и провокативность
Лучшие зарубежные модели: Claude‑3.5‑Sonnet, Mistral‑123B, GPT‑4o
Лидер среди отечественных: GigaChat_Pro (4–е место), немного опережая YandexGPT_PRO (6–е место)
Сложные области: политология (самые низкие результаты). Наиболее доступными областями являются география и социология (занимают 3-е место и выше).
Провокативность снижает оценки: средние баллы по уровням 1→2→3: 37.19 → 36.53 → 30.96
Выводы. Общая таблица лидеров
Модель | Баллы (min-max) |
Claude‑3.5‑Sonnet | 79.02–83.24 |
Mistral‑123B | 68.06–73.19 |
GPT‑4o | 64.21–68.26 |
GigaChat_Pro | 57.60–61.02 |
YandexGPT_Pro | 52.75–57.81 |
Типовые проблемы:
Несоблюдение инструкции (дополнительные символы, язык ответа, цитаты промпта);
Фактические ошибки (до 80% в некоторых случаях);
Плохая обработка сложных форматов: сопоставление, открытые ответы, упорядочивание.
Практическое применение:
Fine‑tune QA. Проверка, «сломал» ли новый чекпоинт базу знаний
Compliance‑аудит. Простой способ установить пороги качества на чувствительных вопросах.
Обучение и экзамены. Можно использовать для моделирования ЕГЭ-подобных тестов.
→ Как прогнать свою модель на бенчмарке SLAVA?
Будущее доработки и ограничения
План | Состояние |
Генератор новых вопросов (LLM‑агент) | Пилот, 200 валидных Q/сутки |
Аналитический дашборд с фильтрами | Pre-release |
Human‑baseline | Сбор данных и создание MVP |
Мультимодальный SLAVA (картографика, плакаты) | R&D |
Ограничения: корпус пока гуманитарный; нет задач по экономике и культуре; оценки open‑answer чувствительны к синонимам.
Заключение
Проект SLAVA выходит за рамки обычного бенчмарка, становясь важным инструментом технологического суверенитета. В эпоху, когда языковые модели все активнее участвуют в образовательных, юридических и даже политических процессах, способность объективно оценивать их компетентность в национальном контексте превращается в стратегическую задачу.
Результаты первых исследований наглядно демонстрируют: даже передовые ИИ-системы пока не способны адекватно работать с российскими социально-политическими реалиями без специальной доработки. Это ставит перед разработчиками четкую задачу - создавать не просто многоязычные, а действительно локализованные решения, учитывающие культурные и исторические особенности.
Присоединяйтесь: тестируйте свои модели, предлагайте вопросы, улучшайте качество русскоязычных LLM — это вклад в технологический и смысловой суверенитет.
Бенчмарк, фреймворк и открытый датасет доступны → GitHub и HuggingFace.
Авторы обзорной статьи: магистранты AI Talent Hub ИТМО Шарафетдинов Ринат Саярович и Четвергов Андрей Сергеевич.
Команда Исследовательского центра искусственного интеллекта ИОН: Мария Полукошко, Андрей Четвергов, Ринат Шарафетдинов, Вадим Ахметов, Наталия Оружейникова, Егор Аничков, Ирина Алексеевская, Сергей Боловцов, Павел Голосов, Тимофей Сиворакша, Степан Уколов.