Comments 6
спасибо! доступно.
но задача классификации сейчас не самая полезная в CV. есть ли трансформеры для сегментации? ещё бы желательно претренированные
Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки!
Я больше скажу, не нужны ни свертки, ни трансформеры. Можно вернуться к истокам используя MLP и получить отличные результаты.
Я не смог уловить, как именно мы "Каждый 12-мерный вектор патча сжимаем до 4-мерного эмбеддинга"?
Sign up to leave a comment.
Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть