Comments 11
А что если сделать эмбеддинг для относительной позиции, а не для абсолютной? Для этого можно взять rotary embeddings (отдельно по осям x и y).
Я так пробовал, но кажется у меня были где-то ошибки и результат не получился.
Они не обладают тогда универсальной аппроксимацией.
на редкость бестолкова статья. Ничего толком не объяснено. Вот архитектура, вот код и вперед. Что, зачем, для чего абсолютно не ясно. Самое плохое, что тема определения различий кошек от собак отстала от жизни лет на 10! Было бы куда полезней объяснить на пальцах как работают современные сети типа GPT-4 Vision для анализ и описание визуального контента.
по мне так код вполне понятный. как вводная история очень даже неплохо.
Согласен, без прелюдий в патчи, что это такое не объяснил и какое внимание, куда обратил и как прикладная задача - так себе
Очень толковая - у автора есть рабочий код и он понимает что делает. И как раз когда код пишешь, наступаешь на все грабли и начинаешь что-то понимать.
Бестолковые статьи - это никогда авторы занимаются пересказом чужих мыслей, а сами ничего выучить не смогли или даже не попытались.
Да я не оспариваю качество кода, который крайне избыточен и написан скорее всего совсем другим человеком. Зачем столько мути для решения простейшей задачи различий кошек и собак? Я так же назвал свои пожелания.
У меня LeNet с 3 сверточными и 2 линейными слоями и ≈300к параметров за 10 эпох на cifar достигала достигала точность 0.78 на тесте.
Очень хорошая статья с демонстрацией применения трансформеров для классификации картинок. Сравнивать с LeNet некорректно. Обратите внимание, что автор получил неплохие метрики классификации для 10 классов по 1000 (!!!) картинкам в каждом классе. К сожалению, по приведенным графикам ничего нельзя сказать о переобучении. График Train Loss приведен, а графика Test Loss нет, а этот график самый интересный
Я построил Vision Transformer с нуля — и научил его обращать внимание