Search
Write a publication
Pull to refresh
13
0
Роман Исаченко @isachenkoroma

Занимаюсь компьютерным зрением в Яндексе

Send message

Большинство общеизвестных бенчей: docvqa, infographicsvqa, MMBench, MMMU, pope итд (всего чуть больше 30 штук)

Добрый день!

В режиме "Текст" используется классический OCR, тк это более нативное решение, если задача только распознать текст. Мы не планируем заменять классический OCR с помощью VLM, так как в большинстве продуктовых сценариев, где встречается текст на изображении, VLM может обогатить текущий OCR. Итого, отвечая на вопрос: потестить VLM для OCR без использования классического OCR сейчас нельзя.

Не понятно, почему ты не включил в свой список что-то детекционное (DETR-like архитектуры).

Я бы не советовал сейчас через VLM решать задачу детекции, если задача именно получить около-sota качество детекции. VLM хороша как foundation модель, но вот в задаче детекции пока частные подходы показывают качество повыше.

VLM базируется на моделях, которые используются в поиске похожих изображений. Но у нас очень большие планы по тому, как плотнее интегрировать VLM в поиск похожих изображений.

В целом согласен, но не факт, что в такой задаче в качестве бейзлайна стоит использовать VLM. Думаю, что старая добрая задача image-text relevance (CLIP) ну или ее видео аналоги могут работать и лучше, и эффективнее.

Саша, привет!

Прямо сейчас анализ видео у нас на стадии раннего ресерча, это правда очень интересная задача, которая (по моей субъективной оценке) очень сильно способна забустить качество VLM (и это помимо того, что позволит другие пользовательские сценарии решать). Но конкретно в этих моделях были только картиночные данные.

Information

Rating
3,294-th
Location
Россия
Works in
Date of birth
Registered
Activity