NickRoot69 Jul 4 at 13:16

Я построил Vision Transformer с нуля — и научил его обращать внимание

Easy

6 min

5.9K

Artificial IntelligenceMachine learning * Python *

From sandbox

+10

Comments 11

lgorSL Jul 4 at 14:31

А что если сделать эмбеддинг для относительной позиции, а не для абсолютной? Для этого можно взять rotary embeddings (отдельно по осям x и y).

Я так пробовал, но кажется у меня были где-то ошибки и результат не получился.

Flokis_guy Jul 4 at 14:40

Они не обладают тогда универсальной аппроксимацией.

ioleynikov Jul 4 at 21:35

на редкость бестолкова статья. Ничего толком не объяснено. Вот архитектура, вот код и вперед. Что, зачем, для чего абсолютно не ясно. Самое плохое, что тема определения различий кошек от собак отстала от жизни лет на 10! Было бы куда полезней объяснить на пальцах как работают современные сети типа GPT-4 Vision для анализ и описание визуального контента.

S_A Jul 5 at 04:26

по мне так код вполне понятный. как вводная история очень даже неплохо.

m0tral Jul 6 at 01:37

Согласен, без прелюдий в патчи, что это такое не объяснил и какое внимание, куда обратил и как прикладная задача - так себе

ioleynikov Jul 6 at 02:33

В том то и дело! Я конечно не виню автора во всех смертных грехах но конструктивная критика иногда помогает улучшить методы работы и изложение результатов. Спасибо за поддержку и Удачи!

lgorSL Jul 8 at 10:40

Очень толковая - у автора есть рабочий код и он понимает что делает. И как раз когда код пишешь, наступаешь на все грабли и начинаешь что-то понимать.

Бестолковые статьи - это никогда авторы занимаются пересказом чужих мыслей, а сами ничего выучить не смогли или даже не попытались.

ioleynikov Jul 8 at 10:53

ладно, проехали. Нравится - читайте

ioleynikov Jul 5 at 04:53

Да я не оспариваю качество кода, который крайне избыточен и написан скорее всего совсем другим человеком. Зачем столько мути для решения простейшей задачи различий кошек и собак? Я так же назвал свои пожелания.

callmefordream Jul 7 at 06:20

У меня LeNet с 3 сверточными и 2 линейными слоями и ≈300к параметров за 10 эпох на cifar достигала достигала точность 0.78 на тесте.

ENick Jul 8 at 21:39

Очень хорошая статья с демонстрацией применения трансформеров для классификации картинок. Сравнивать с LeNet некорректно. Обратите внимание, что автор получил неплохие метрики классификации для 10 классов по 1000 (!!!) картинкам в каждом классе. К сожалению, по приведенным графикам ничего нельзя сказать о переобучении. График Train Loss приведен, а графика Test Loss нет, а этот график самый интересный