fartoviy109 Jun 28 2025 at 12:05

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Easy

6 min

3.8K

Python * Big Data * Machine learning * Image processing * Artificial Intelligence

Review

Comments 6

S_A Jun 28 2025 at 13:48

спасибо! доступно.

но задача классификации сейчас не самая полезная в CV. есть ли трансформеры для сегментации? ещё бы желательно претренированные

fartoviy109 Jun 29 2025 at 09:17

Да, такие существуют. В ближайших планах будет статья с обзором архитектур для сегментации и детекции

S_A Jun 30 2025 at 10:20

да уже нашёл, segformer, жалко что не instance segmentation

Flokis_guy Jun 28 2025 at 13:49

Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки!

Я больше скажу, не нужны ни свертки, ни трансформеры. Можно вернуться к истокам используя MLP и получить отличные результаты.

Rigidus Jun 29 2025 at 11:56

Я не смог уловить, как именно мы "Каждый 12-мерный вектор патча сжимаем до 4-мерного эмбеддинга"?

fartoviy109 Jun 29 2025 at 18:46

Происходит с помощью линейного слоя, который выполняет умножением вектора патча на матрицу весов W. Это обучаемый параметр размером 12×4 (из 12 измерений → в 4).