Комментарии 6
Уважаемый генератор идей! Рецензируемые публикации есть? Пока общие фразы и непонятные картинки
TAPe = ручной фич инжиниринг?
Ну нет) Если совсем кратко:TAPe или вернее технология (модель) на базе TAPe напрямую оптимизирует то, какие патчи считать похожими и как их группировать, а не прячет эту логику внутри гигантского backprop по ViT/DINO. То есть модель сама учит свое внутреннее представление по данным, не использует заранее придуманные руками признаки
Если углубляться - немного - в детали, то мы не формируем фичи вручную каждый раз в зависимости от задачи. Это первое. Второе: в нашем случае из так называемых фич проистекают дальнейшие законы/методы работы с этими фичами. Они взаимосвязаны.
Представьте, что вы работаете со звуками, вам нужно написать музыку, но вы не знаете о существовании нот, как их сочетание влияет друг на друга, что такое квинтовый круг и тд и тп. Скорее всего вам придется "изобрести" и методы работы со звуком, а значит и ноты. Которые могут превращаться в аккорды, мотивы, музыку. Будут ли у вас совсем другие ноты или они будут как минимум похожи с теми, которые мы все сейчас знаем?
Это аналогия с тем, что происходит в TAPe, но с изображениями

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей