All streams
Search
Write a publication
Pull to refresh
8
7
Send message

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Level of difficultyMedium
Reading time9 min
Views475

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час.

За подробностями

Как создать ассистента для поиска по видео

Reading time9 min
Views2.1K

Всем привет! Меня зовут Георгий, я старший разработчик‑исследователь в MTS AI. Одной из задач, которыми я занимаюсь в компании, является умная видеоаналитика. Это мощный инструмент, особенно с учетом современных технологий искусственного интеллекта, который может использоваться во многих отраслях: от торговли до обслуживания клиентов.

При этом у сегодняшних систем видеоаналитики есть существенное ограничение: они заточены под узкие задачи и конкретные типы событий — например, распознавание автомобильных номеров, пересечение границ, детектирование лиц. Конечно, прогресс не стоит на месте, и за прошедший год появилось много мультимодальных моделей, способных отвечать на широкий спектр вопросов по видео — но они работают лишь на очень коротких роликах и требуют серьезных вложений в «железо».

Тем не менее представьте, что можно создать общую систему видеоаналитики, которая заранее не настроена на определенные события. Она гибкая и умеет понимать задачи во время общения с пользователем. Запросы могут быть разнообразными, например: «предупреди меня, если в кадре произойдет ЧП, например, пожар или драка» или «я хочу найти кадры с желтыми автомобилями такси».

Можно ли найти подход, при котором система сможет отвечать на широкий спектр вопросов по видео, но при этом будет способна обрабатывать длинные видеозаписи и останется нетребовательной к железу? В этой статье я расскажу про один из способов создания такого решения — на примере поиска по видео.

Читать далее

Information

Rating
820-th
Registered
Activity