https://arxiv.org/abs/2107.00652

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows (Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo)

axial attention. axial attention처럼 한 줄만 보는 게 아니라 근방의 선도 같이 봐서 일종의 (non overlapping) 밴드를 만드는 게 특징이네요. 결과도 꽤 좋아보입니다. axial attention이 이렇게 다시 등장하네요.

#vit #efficient_attention #local_attention

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210701 CSWin Transformer.md

210701 CSWin Transformer.md

Files

210701 CSWin Transformer.md

Latest commit

History

210701 CSWin Transformer.md

File metadata and controls