Pull to refresh
4K+
4
Даниил Иванов@daniel_ivanov

User

6
Rating
2
Subscribers
Send message

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Reading time4 min
Reach and readers6.1K

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.

Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

Читать далее

Information

Rating
1,065-th
Registered
Activity

Specialization

Директор по продукту
Ведущий
Английский язык
Управление проектами
Руководство стартапом
Next.js
GraphQL
Golang
Стратегическое управление
Управление людьми
Машинное обучение
Видеостриминг