Привет! Если говорить именно о распознавании действий, то для задачи action recognition нужна отдельная классификационная голова в архитектуре сетки. Если добавить такую голову в, например, Semantic-SAM, тогда на выходе помимо масок и соответствующих меток класса объекта мы также будем получать метку класса, означающую действие.
Генерация же общего описания объектов и их действий на картинке является более сложной задачей и сейчас решается с помощью мультимодальных моделей, работающих на данных из разных доменов. Например, на базе SAM есть фреймворк Caption-Anything, умеющий генерировать краткие текстовые описания для сегментированных объектов. Помимо SAM он также использует другую фундаментальную модель - ChatGPT.
Information
Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Привет! Если говорить именно о распознавании действий, то для задачи action recognition нужна отдельная классификационная голова в архитектуре сетки. Если добавить такую голову в, например, Semantic-SAM, тогда на выходе помимо масок и соответствующих меток класса объекта мы также будем получать метку класса, означающую действие.
Генерация же общего описания объектов и их действий на картинке является более сложной задачей и сейчас решается с помощью мультимодальных моделей, работающих на данных из разных доменов. Например, на базе SAM есть фреймворк Caption-Anything, умеющий генерировать краткие текстовые описания для сегментированных объектов. Помимо SAM он также использует другую фундаментальную модель - ChatGPT.