isachenkoroma 3 окт 2024 в 09:00

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

11 мин

17K

Блог компании ЯндексМашинное обучение*Natural Language Processing*Поисковые технологии*Алгоритмы*

✏️ Технотекст 7

+50

Комментарии 14

hukenovs 3 окт 2024 в 13:18

Привет, Роман! Спасибо за классную статью. А работаете ли вы в направлении понимания видео, в частности для анализа длинных видео, причем не только в речевом домене, но и в визуальном, с помощью LLM?

isachenkoroma 3 окт 2024 в 13:46

Саша, привет!

Прямо сейчас анализ видео у нас на стадии раннего ресерча, это правда очень интересная задача, которая (по моей субъективной оценке) очень сильно способна забустить качество VLM (и это помимо того, что позволит другие пользовательские сценарии решать). Но конкретно в этих моделях были только картиночные данные.

Askalite 6 окт 2024 в 13:03

О, сразу посде того, как сможете разметить видео по кадрам, сделав из него текст или векторный контекст, можно будет запустить поиск по видео, и рекомендовать видео ближайшие по смыслу к предыдущему просматриваемому.

isachenkoroma 7 окт 2024 в 07:33

В целом согласен, но не факт, что в такой задаче в качестве бейзлайна стоит использовать VLM. Думаю, что старая добрая задача image-text relevance (CLIP) ну или ее видео аналоги могут работать и лучше, и эффективнее.

Andriljo 9 окт 2024 в 11:06

да для этого лучше заводить аналог Coles на video или аналог clip в контрастиве.

perfect_genius 3 окт 2024 в 22:33

Года идут, а никто из поисковиков по картинкам не может сразу дать ссылку на автора картинки. Приходится искать, и иногда - долго.

Askalite 6 окт 2024 в 13:01

Веихайте в нейросеть рекламу, чтобы она не только отвечала на вопрос, но и перед ответом немного порассуждала о том, что: "итак, я сегодня выпила банку сока продукт и теперь могу ответить на ваш вопрос..."

zuriad 7 окт 2024 в 04:02

Интересная статья

VLM используется только для умного поиска? Или для поиска похожих по изображению тоже как то переиспользуете?

isachenkoroma 7 окт 2024 в 07:34

VLM базируется на моделях, которые используются в поиске похожих изображений. Но у нас очень большие планы по тому, как плотнее интегрировать VLM в поиск похожих изображений.

moraks 7 окт 2024 в 04:10

От Яндекса жду более тесную интеграцию с Российскими провайдерами нормативно-справочной информации, таких как Консультант+, Кодекс (Техэксперт) и др. Пока запросил у нейро список 10 актуальных НПА (ФЗ, ГОСТ, СНИП/СП) по ремонту котельного оборудования. Результат: 1 документ - актуальный, 3 - не актуальные (при том уже не действуют с 90-2000х), остальное вообще выдуманное.

sportp 7 окт 2024 в 07:35

Если есть очень чистый dataset для обучения object detection - что лучше взять за базовую модель? VLM (llama 3.2 vision) или модель для сегментации (SAM)?

isachenkoroma 7 окт 2024 в 07:37

Не понятно, почему ты не включил в свой список что-то детекционное (DETR-like архитектуры).

Я бы не советовал сейчас через VLM решать задачу детекции, если задача именно получить около-sota качество детекции. VLM хороша как foundation модель, но вот в задаче детекции пока частные подходы показывают качество повыше.

badbul 11 окт 2024 в 05:50

Добрый день! Спасибо за интересную статью! Подскажите, в Нейро у умной камеры есть опция "Текст", там выводится результат OCR изображения. Для этого вы используете VLM или классический OCR? Если классика, то как можно затестить вашу VLM для OCR?

isachenkoroma 13 окт 2024 в 06:02

Добрый день!

В режиме "Текст" используется классический OCR, тк это более нативное решение, если задача только распознать текст. Мы не планируем заменять классический OCR с помощью VLM, так как в большинстве продуктовых сценариев, где встречается текст на изображении, VLM может обогатить текущий OCR. Итого, отвечая на вопрос: потестить VLM для OCR без использования классического OCR сейчас нельзя.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий