
MWS AI выложила в открытый доступ код и валидационный датасет к бенчмарку MWS Vision Bench - для оценки способностей мультимодальных LLM в работе с тяжелым визуально-текстовым контентом на русском: сканами документов, текстом с картинками, графиками, чертежами, таблицами и пр.
Кратко:
Бенчмарк состоит из 5 практических заданий:
- полностраничный OCR (страница→текст),
- структурированный OCR (страница→markdown),
- grounding (координаты текста),
- KIE/JSON (извлечение ключей),
- VQA (вопрос‑ответ).
Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278).
Репозиторий - на GitHub
Валидационный датасет - на HF
Подробно - тут: https://habr.com/ru/companies/mts_ai/articles/953292/ .