https://arxiv.org/abs/2107.02174
What Makes for Hierarchical Vision Transformer? (Yuxin Fang, Xinggang Wang, Rui Wu, Jianwei Niu, Wenyu Liu)
swin 같은 빠와풀한 vit의 핵심은 non overlapping window + window 사이의 정보 교환이라는 분석. 그 증거로 attention을 빼버리고 linear 레이어를 끼워넣어도 작동한다는 결과. 흠터레스팅.
#vit #attention #mlp #local_attention