Pull to refresh

Comments 6

спасибо! доступно.

но задача классификации сейчас не самая полезная в CV. есть ли трансформеры для сегментации? ещё бы желательно претренированные

Да, такие существуют. В ближайших планах будет статья с обзором архитектур для сегментации и детекции

да уже нашёл, segformer, жалко что не instance segmentation

Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки!

Я больше скажу, не нужны ни свертки, ни трансформеры. Можно вернуться к истокам используя MLP и получить отличные результаты.

Я не смог уловить, как именно мы "Каждый 12-мерный вектор патча сжимаем до 4-мерного эмбеддинга"?

Происходит с помощью линейного слоя, который выполняет умножением вектора патча на матрицу весов W. Это обучаемый параметр размером 12×4 (из 12 измерений → в 4). 

Sign up to leave a comment.

Articles