oopatow28 фев в 05:16

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Средний

6 мин

5.1K

Машинное обучение * Искусственный интеллектРабота с видео *

Из песочницы

-1

Комментарии 6

ENick 28 фев в 06:16

Уважаемый генератор идей! Рецензируемые публикации есть? Пока общие фразы и непонятные картинки

oopatow 28 фев в 10:08

рецензируемые публикации есть. если что-то неясно/непонятно - всегда можно задать уточняющий вопрос. если таковой есть.

DespInding 28 фев в 11:53

Было бы интересно почитать, можете на архив дать ссылку?

Celsius 28 фев в 15:56

TAPe = ручной фич инжиниринг?

oopatow 28 фев в 18:24

Ну нет) Если совсем кратко:TAPe или вернее технология (модель) на базе TAPe напрямую оптимизирует то, какие патчи считать похожими и как их группировать, а не прячет эту логику внутри гигантского backprop по ViT/DINO. То есть модель сама учит свое внутреннее представление по данным, не использует заранее придуманные руками признаки

oopatow 2 мар в 08:30

Если углубляться - немного - в детали, то мы не формируем фичи вручную каждый раз в зависимости от задачи. Это первое. Второе: в нашем случае из так называемых фич проистекают дальнейшие законы/методы работы с этими фичами. Они взаимосвязаны.

Представьте, что вы работаете со звуками, вам нужно написать музыку, но вы не знаете о существовании нот, как их сочетание влияет друг на друга, что такое квинтовый круг и тд и тп. Скорее всего вам придется "изобрести" и методы работы со звуком, а значит и ноты. Которые могут превращаться в аккорды, мотивы, музыку. Будут ли у вас совсем другие ноты или они будут как минимум похожи с теми, которые мы все сейчас знаем?

Это аналогия с тем, что происходит в TAPe, но с изображениями

Зарегистрируйтесь на Хабре, чтобы оставить комментарий