ml-papers/papers/2021/210604 RegionViT.md at main · rosinality/ml-papers · GitHub

https://arxiv.org/abs/2106.02689

RegionViT: Regional-to-Local Attention for Vision Transformers (Chun-Fu Chen, Rameswar Panda, Quanfu Fan)

local attention에 더 큰 패치 크기를 사용한 임베딩(region)을 결합한 vit. 수치상으로는 swin transformer와도 경쟁력이 있네요. 레이턴시가 궁금하긴 합니다만...

#vit #local_attention