Рассказываем, что такое FastViT. Это новая модель для задач машинного зрения, дуэт трансформера и свёрточной нейросети (CNN), объединяющий сильные стороны двух архитектур.
Эта модель менее требовательна к вычислительным ресурсам, при этом она обеспечивает хороший компромисс между точностью и временем обработки изображений.
В тестах разработчиков FastVIT она оказалась в 1,9 раза быстрее, чем ConvNeXt и в 3,5 раза быстрее, чем CMT на наборе данных ImageNet при том же, или даже чуть меньшем проценте ошибок. FastVIT более устойчива к искажениям.
По сравнению с другими гибридными трансформерами на архитектуре Metaformer, FastViT применяет более эффективный оператор микширования RepMixer. Он построен таким образом, чтобы за счёт структурной репараметризации достигать существенного ускорения инференса.
Тесты авторов показали, что при разрешении 1024×1024 RepMixer уменьшает время обработки изображений почти вдвое — на 43,9%.
FastVIT использует и другие архитектурные улучшения. Подробнее о них читайте здесь.