Обновить
4K+
4
Даниил Иванов@daniel_ivanov

Пользователь

6
Рейтинг
2
Подписчики
Отправить сообщение

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Время на прочтение4 мин
Охват и читатели6.1K

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.

Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

Читать далее

Информация

В рейтинге
1 042-й
Зарегистрирован
Активность

Специализация

Директор по продукту
Ведущий
Английский язык
Управление проектами
Руководство стартапом
Next.js
GraphQL
Golang
Стратегическое управление
Управление людьми
Машинное обучение
Видеостриминг