https://arxiv.org/abs/2106.02689
RegionViT: Regional-to-Local Attention for Vision Transformers (Chun-Fu Chen, Rameswar Panda, Quanfu Fan)
local attention에 더 큰 패치 크기를 사용한 임베딩(region)을 결합한 vit. 수치상으로는 swin transformer와도 경쟁력이 있네요. 레이턴시가 궁금하긴 합니다만...
#vit #local_attention