Pull to refresh

Comments 10

может ли модель работать как помощник учителя в реальной российской школе.

сам по себе набор результатов интересен, но хотелось бы чутоку видеть что стоит за подобными формулировками

Бенчмарк содержит 5 категорий задач — технологические карты уроков по ФГОС, подготовка к ОГЭ/ЕГЭ, характеристики учеников, работа с родителями, адаптация под региональный контекст.

Каждый ответ оценивается по 5 параметрам (педагогическое качество, язык, фактология, применимость, региональный контекст) тремя независимыми судьями (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro добавлена сегодня).

Планируется пилот для использования в реальных условиях.

Сам бенчмарк открытый: github.com/csylabs-org/edubench-ru — можно посмотреть и задания, и текущую методологию оценки.

Простите за тупой вопрос: почему не тестировали российские модели, обученные на корпусе российских текстов?

Гигачат и нейросетки Яндекса по идее должны хорошо справляться с такими заданиями?

Вопрос отличный и я тоже им задался после первого отчета :)

Тестировал: GigaChat-2 (Lite, Pro, Max) и YandexGPT (5 Lite, 5.1 Pro) — все пять входят в расширенный тест, готовлю к релизу. Результат: места с 21 по 28. GigaChat-2 Max набрал 2.39/4.0, YandexGPT 5.1 Pro — 2.51/4.0.

Для сравнения: дообученная открытая модель на 27B параметров набрала 3.21/4.0. Разница — не в размере модели, а в том, есть ли в обучающей выборке российские прикладные знания. У GigaChat и YandexGPT, видимо, этого слоя недостаточно.

Да, Gigachat, Yandex везде в конце списка. Как и по нашему бенмарку

Самое времязатратное и рутинное - проверка тетрадей. КТП, характеристики и прочие приколы вылезают пару раз в год (ктп вообще берётся исключительно из официального конструктора и менять его запрещается под страхом смерти). И ни одна нейросеть не может с этим помочь. Так что смысл от внедрения этой ерунды околонулевой.

Согласен — проверка тетрадей это ежедневная боль, и ни одна нейросеть пока не умеет смотреть на рукописный текст ученика (OCR есть и в принципе может работать с любым текстом, но есть нюансы) и проверять его содержательно.

Бенчмарк сознательно сфокусирован на другом слое: подготовка к урокам, формирование характеристик, генерация заданий, адаптация материалов под разные группы учеников. Это не проверка тетрадей — но это часы работы каждую неделю.

Ваш комментарий важный — если бенчмарк не покрывает главную боль, его практическая ценность ограничена. Буду думать, как добавить задачи ближе к ежедневным, для чего планирую живой пилот в школе. Скептицизма уже услышал много :)

Спасибо! Очень интересный бенчмарк получился. Удивили результаты GPT-5.4

Попробуйте на нём Qwen3.5-9b прогнать. Очень маленькая, но очень способная модель.

Спасибо! Честно скажу - меня очень удивили модели Gemini в связке с заданиями на чувашском (локальный для нас, которым пользуются довольно многие) языке. GPT / Claude на данный момент все же по рейтингам в моей голове выше Gemini были.

Qwen3.5-9b — хорошая идея, добавлю в следующий раунд, но пока что взял 27b с планом на дистилл, сейчас первая итерация закончена, готовлю материал. Интересно посмотреть, как маленькие модели справляются с задачами, где нужна специфическая предметная база.

Вы молодцы, я считаю что в этом должна активно участвовать и спонсировать региональная система образования. Пусть выделяют на это определенный бюджет, это важно.

Sign up to leave a comment.

Articles