Комментарии 14
Привет, Роман! Спасибо за классную статью. А работаете ли вы в направлении понимания видео, в частности для анализа длинных видео, причем не только в речевом домене, но и в визуальном, с помощью LLM?
Саша, привет!
Прямо сейчас анализ видео у нас на стадии раннего ресерча, это правда очень интересная задача, которая (по моей субъективной оценке) очень сильно способна забустить качество VLM (и это помимо того, что позволит другие пользовательские сценарии решать). Но конкретно в этих моделях были только картиночные данные.
О, сразу посде того, как сможете разметить видео по кадрам, сделав из него текст или векторный контекст, можно будет запустить поиск по видео, и рекомендовать видео ближайшие по смыслу к предыдущему просматриваемому.
Года идут, а никто из поисковиков по картинкам не может сразу дать ссылку на автора картинки. Приходится искать, и иногда - долго.
Веихайте в нейросеть рекламу, чтобы она не только отвечала на вопрос, но и перед ответом немного порассуждала о том, что: "итак, я сегодня выпила банку сока продукт и теперь могу ответить на ваш вопрос..."
Интересная статья
VLM используется только для умного поиска? Или для поиска похожих по изображению тоже как то переиспользуете?
От Яндекса жду более тесную интеграцию с Российскими провайдерами нормативно-справочной информации, таких как Консультант+, Кодекс (Техэксперт) и др. Пока запросил у нейро список 10 актуальных НПА (ФЗ, ГОСТ, СНИП/СП) по ремонту котельного оборудования. Результат: 1 документ - актуальный, 3 - не актуальные (при том уже не действуют с 90-2000х), остальное вообще выдуманное.
Если есть очень чистый dataset для обучения object detection - что лучше взять за базовую модель? VLM (llama 3.2 vision) или модель для сегментации (SAM)?
Не понятно, почему ты не включил в свой список что-то детекционное (DETR-like архитектуры).
Я бы не советовал сейчас через VLM решать задачу детекции, если задача именно получить около-sota качество детекции. VLM хороша как foundation модель, но вот в задаче детекции пока частные подходы показывают качество повыше.
Добрый день! Спасибо за интересную статью! Подскажите, в Нейро у умной камеры есть опция "Текст", там выводится результат OCR изображения. Для этого вы используете VLM или классический OCR? Если классика, то как можно затестить вашу VLM для OCR?
Добрый день!
В режиме "Текст" используется классический OCR, тк это более нативное решение, если задача только распознать текст. Мы не планируем заменять классический OCR с помощью VLM, так как в большинстве продуктовых сценариев, где встречается текст на изображении, VLM может обогатить текущий OCR. Итого, отвечая на вопрос: потестить VLM для OCR без использования классического OCR сейчас нельзя.
VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам