Comments / Profile of isachenkoroma / Habr

Роман Исаченко @isachenkoroma

Занимаюсь компьютерным зрением в Яндексе

ProfileArticles2PostsNewsComments7

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

isachenkoroma May 6 at 09:38

Большинство общеизвестных бенчей: docvqa, infographicsvqa, MMBench, MMMU, pope итд (всего чуть больше 30 штук)

Look

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

isachenkoroma May 6 at 09:36

Пока что не даем, но думаем об этом

Look

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

isachenkoroma Oct 13 2024 at 06:02

Добрый день!

В режиме "Текст" используется классический OCR, тк это более нативное решение, если задача только распознать текст. Мы не планируем заменять классический OCR с помощью VLM, так как в большинстве продуктовых сценариев, где встречается текст на изображении, VLM может обогатить текущий OCR. Итого, отвечая на вопрос: потестить VLM для OCR без использования классического OCR сейчас нельзя.

Look

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

isachenkoroma Oct 7 2024 at 07:37

Не понятно, почему ты не включил в свой список что-то детекционное (DETR-like архитектуры).

Я бы не советовал сейчас через VLM решать задачу детекции, если задача именно получить около-sota качество детекции. VLM хороша как foundation модель, но вот в задаче детекции пока частные подходы показывают качество повыше.

Look

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

isachenkoroma Oct 7 2024 at 07:34

VLM базируется на моделях, которые используются в поиске похожих изображений. Но у нас очень большие планы по тому, как плотнее интегрировать VLM в поиск похожих изображений.

Look

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

isachenkoroma Oct 7 2024 at 07:33

В целом согласен, но не факт, что в такой задаче в качестве бейзлайна стоит использовать VLM. Думаю, что старая добрая задача image-text relevance (CLIP) ну или ее видео аналоги могут работать и лучше, и эффективнее.

Look

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

isachenkoroma Oct 3 2024 at 13:46

Саша, привет!

Прямо сейчас анализ видео у нас на стадии раннего ресерча, это правда очень интересная задача, которая (по моей субъективной оценке) очень сильно способна забустить качество VLM (и это помимо того, что позволит другие пользовательские сценарии решать). Но конкретно в этих моделях были только картиночные данные.

Look