Обновить

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.8K
Всего голосов 1: ↑0 и ↓1-1
Комментарии6

Комментарии 6

Уважаемый генератор идей! Рецензируемые публикации есть? Пока общие фразы и непонятные картинки

рецензируемые публикации есть. если что-то неясно/непонятно - всегда можно задать уточняющий вопрос. если таковой есть.

Было бы интересно почитать, можете на архив дать ссылку?

TAPe = ручной фич инжиниринг?

Ну нет) Если совсем кратко:TAPe или вернее технология (модель) на базе TAPe напрямую оптимизирует то, какие патчи считать похожими и как их группировать, а не прячет эту логику внутри гигантского backprop по ViT/DINO. То есть модель сама учит свое внутреннее представление по данным, не использует заранее придуманные руками признаки

Если углубляться - немного - в детали, то мы не формируем фичи вручную каждый раз в зависимости от задачи. Это первое. Второе: в нашем случае из так называемых фич проистекают дальнейшие законы/методы работы с этими фичами. Они взаимосвязаны.

Представьте, что вы работаете со звуками, вам нужно написать музыку, но вы не знаете о существовании нот, как их сочетание влияет друг на друга, что такое квинтовый круг и тд и тп. Скорее всего вам придется "изобрести" и методы работы со звуком, а значит и ноты. Которые могут превращаться в аккорды, мотивы, музыку. Будут ли у вас совсем другие ноты или они будут как минимум похожи с теми, которые мы все сейчас знаем?

Это аналогия с тем, что происходит в TAPe, но с изображениями

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации