https://arxiv.org/abs/2103.12731
Scaling Local Self-Attention for Parameter Efficient Visual Backbones (Ashish Vaswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar, Blake Hechtman, Jonathon Shlens)
local attention의 변형. non overlapping 패치로 이미지를 자른 다음 그 패치보다 좀 더 넓은 범위 내에서 attention을 계산.
#local_attention