Как стать автором
Поиск
Написать публикацию
Обновить

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.8K
Всего голосов 5: ↑5 и ↓0+7
Комментарии6

Комментарии 6

спасибо! доступно.

но задача классификации сейчас не самая полезная в CV. есть ли трансформеры для сегментации? ещё бы желательно претренированные

Да, такие существуют. В ближайших планах будет статья с обзором архитектур для сегментации и детекции

да уже нашёл, segformer, жалко что не instance segmentation

Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки!

Я больше скажу, не нужны ни свертки, ни трансформеры. Можно вернуться к истокам используя MLP и получить отличные результаты.

Я не смог уловить, как именно мы "Каждый 12-мерный вектор патча сжимаем до 4-мерного эмбеддинга"?

Происходит с помощью линейного слоя, который выполняет умножением вектора патча на матрицу весов W. Это обучаемый параметр размером 12×4 (из 12 измерений → в 4). 

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации