В режиме "Текст" используется классический OCR, тк это более нативное решение, если задача только распознать текст. Мы не планируем заменять классический OCR с помощью VLM, так как в большинстве продуктовых сценариев, где встречается текст на изображении, VLM может обогатить текущий OCR. Итого, отвечая на вопрос: потестить VLM для OCR без использования классического OCR сейчас нельзя.
Не понятно, почему ты не включил в свой список что-то детекционное (DETR-like архитектуры).
Я бы не советовал сейчас через VLM решать задачу детекции, если задача именно получить около-sota качество детекции. VLM хороша как foundation модель, но вот в задаче детекции пока частные подходы показывают качество повыше.
VLM базируется на моделях, которые используются в поиске похожих изображений. Но у нас очень большие планы по тому, как плотнее интегрировать VLM в поиск похожих изображений.
В целом согласен, но не факт, что в такой задаче в качестве бейзлайна стоит использовать VLM. Думаю, что старая добрая задача image-text relevance (CLIP) ну или ее видео аналоги могут работать и лучше, и эффективнее.
Прямо сейчас анализ видео у нас на стадии раннего ресерча, это правда очень интересная задача, которая (по моей субъективной оценке) очень сильно способна забустить качество VLM (и это помимо того, что позволит другие пользовательские сценарии решать). Но конкретно в этих моделях были только картиночные данные.
Большинство общеизвестных бенчей: docvqa, infographicsvqa, MMBench, MMMU, pope итд (всего чуть больше 30 штук)
Пока что не даем, но думаем об этом
Добрый день!
В режиме "Текст" используется классический OCR, тк это более нативное решение, если задача только распознать текст. Мы не планируем заменять классический OCR с помощью VLM, так как в большинстве продуктовых сценариев, где встречается текст на изображении, VLM может обогатить текущий OCR. Итого, отвечая на вопрос: потестить VLM для OCR без использования классического OCR сейчас нельзя.
Не понятно, почему ты не включил в свой список что-то детекционное (DETR-like архитектуры).
Я бы не советовал сейчас через VLM решать задачу детекции, если задача именно получить около-sota качество детекции. VLM хороша как foundation модель, но вот в задаче детекции пока частные подходы показывают качество повыше.
VLM базируется на моделях, которые используются в поиске похожих изображений. Но у нас очень большие планы по тому, как плотнее интегрировать VLM в поиск похожих изображений.
В целом согласен, но не факт, что в такой задаче в качестве бейзлайна стоит использовать VLM. Думаю, что старая добрая задача image-text relevance (CLIP) ну или ее видео аналоги могут работать и лучше, и эффективнее.
Саша, привет!
Прямо сейчас анализ видео у нас на стадии раннего ресерча, это правда очень интересная задача, которая (по моей субъективной оценке) очень сильно способна забустить качество VLM (и это помимо того, что позволит другие пользовательские сценарии решать). Но конкретно в этих моделях были только картиночные данные.