Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 365 Bytes

210604 RegionViT.md

File metadata and controls

7 lines (4 loc) · 365 Bytes

https://arxiv.org/abs/2106.02689

RegionViT: Regional-to-Local Attention for Vision Transformers (Chun-Fu Chen, Rameswar Panda, Quanfu Fan)

local attention에 더 큰 패치 크기를 사용한 임베딩(region)을 결합한 vit. 수치상으로는 swin transformer와도 경쟁력이 있네요. 레이턴시가 궁금하긴 합니다만...

#vit #local_attention