Comments / Profile of kleinsbotle / Habr

Елизавета Петрова@kleinsbotle

User

Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

@kleinsbotle Aug 31 2023 at 12:20

Привет! Если говорить именно о распознавании действий, то для задачи action recognition нужна отдельная классификационная голова в архитектуре сетки. Если добавить такую голову в, например, Semantic-SAM, тогда на выходе помимо масок и соответствующих меток класса объекта мы также будем получать метку класса, означающую действие.

Генерация же общего описания объектов и их действий на картинке является более сложной задачей и сейчас решается с помощью мультимодальных моделей, работающих на данных из разных доменов. Например, на базе SAM есть фреймворк Caption-Anything, умеющий генерировать краткие текстовые описания для сегментированных объектов. Помимо SAM он также использует другую фундаментальную модель - ChatGPT.

Information

Specialization