https://arxiv.org/abs/2107.00652
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows (Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo)
axial attention. axial attention처럼 한 줄만 보는 게 아니라 근방의 선도 같이 봐서 일종의 (non overlapping) 밴드를 만드는 게 특징이네요. 결과도 꽤 좋아보입니다. axial attention이 이렇게 다시 등장하네요.
#vit #efficient_attention #local_attention