Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 413 Bytes

210705 What Makes for Hierarchical Vision Transformer.md

File metadata and controls

7 lines (4 loc) · 413 Bytes

https://arxiv.org/abs/2107.02174

What Makes for Hierarchical Vision Transformer? (Yuxin Fang, Xinggang Wang, Rui Wu, Jianwei Niu, Wenyu Liu)

swin 같은 빠와풀한 vit의 핵심은 non overlapping window + window 사이의 정보 교환이라는 분석. 그 증거로 attention을 빼버리고 linear 레이어를 끼워넣어도 작동한다는 결과. 흠터레스팅.

#vit #attention #mlp #local_attention