Skip to content

Latest commit

 

History

History
8 lines (5 loc) · 523 Bytes

210701 CSWin Transformer.md

File metadata and controls

8 lines (5 loc) · 523 Bytes

https://arxiv.org/abs/2107.00652

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows (Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo)

axial attention. axial attention처럼 한 줄만 보는 게 아니라 근방의 선도 같이 봐서 일종의 (non overlapping) 밴드를 만드는 게 특징이네요. 결과도 꽤 좋아보입니다. axial attention이 이렇게 다시 등장하네요.

#vit #efficient_attention #local_attention