All streams
Search
Write a publication
Pull to refresh
7
0
Елизавета Петрова @kleinsbotle

User

Send message

Привет! Если говорить именно о распознавании действий, то для задачи action recognition нужна отдельная классификационная голова в архитектуре сетки. Если добавить такую голову в, например, Semantic-SAM, тогда на выходе помимо масок и соответствующих меток класса объекта мы также будем получать метку класса, означающую действие.

Генерация же общего описания объектов и их действий на картинке является более сложной задачей и сейчас решается с помощью мультимодальных моделей, работающих на данных из разных доменов. Например, на базе SAM есть фреймворк Caption-Anything, умеющий генерировать краткие текстовые описания для сегментированных объектов. Помимо SAM он также использует другую фундаментальную модель - ChatGPT.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Registered
Activity

Specialization

ML Engineer