Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1) / Comments / Habr

rPman Aug 30 2023 at 05:18

На примере 'Text prompt' написано что это 'черная собака', есть ли модели, определяющие не только кто это но и что делает? Особенно это актуально, если мы сегментируем изображение, но что именно происходит можно понять только если анализировать картину в целом (несколько соседних сегментов), например — 'ножом мальчик режет хлеб', по отдельности это будет только 'мальчик, нож, хлеб, кусочки хлеба'

kleinsbotle Aug 31 2023 at 15:20

Привет! Если говорить именно о распознавании действий, то для задачи action recognition нужна отдельная классификационная голова в архитектуре сетки. Если добавить такую голову в, например, Semantic-SAM, тогда на выходе помимо масок и соответствующих меток класса объекта мы также будем получать метку класса, означающую действие.

Генерация же общего описания объектов и их действий на картинке является более сложной задачей и сейчас решается с помощью мультимодальных моделей, работающих на данных из разных доменов. Например, на базе SAM есть фреймворк Caption-Anything, умеющий генерировать краткие текстовые описания для сегментированных объектов. Помимо SAM он также использует другую фундаментальную модель - ChatGPT.

hk2281 Sep 4 2023 at 07:58

В целом можешь посмотреть в сторону модели LLaVA/vacuna на ее основе есть на huggingface демка которая позволяет генерить описание по фото.