Pull to refresh

Comments 3

На примере 'Text prompt' написано что это 'черная собака', есть ли модели, определяющие не только кто это но и что делает? Особенно это актуально, если мы сегментируем изображение, но что именно происходит можно понять только если анализировать картину в целом (несколько соседних сегментов), например — 'ножом мальчик режет хлеб', по отдельности это будет только 'мальчик, нож, хлеб, кусочки хлеба'

Привет! Если говорить именно о распознавании действий, то для задачи action recognition нужна отдельная классификационная голова в архитектуре сетки. Если добавить такую голову в, например, Semantic-SAM, тогда на выходе помимо масок и соответствующих меток класса объекта мы также будем получать метку класса, означающую действие.

Генерация же общего описания объектов и их действий на картинке является более сложной задачей и сейчас решается с помощью мультимодальных моделей, работающих на данных из разных доменов. Например, на базе SAM есть фреймворк Caption-Anything, умеющий генерировать краткие текстовые описания для сегментированных объектов. Помимо SAM он также использует другую фундаментальную модель - ChatGPT.

В целом можешь посмотреть в сторону модели LLaVA/vacuna на ее основе есть на huggingface демка которая позволяет генерить описание по фото.

Sign up to leave a comment.