https://arxiv.org/pdf/2105.04371.pdf
Poolingformer: Long Document Modeling with Pooling Attention (Hang Zhang, Yeyun Gong, Yelong Shen, Weisheng Li, Jiancheng Lv, Nan Duan, Weizhu Chen)
long range attention. local attention + pooling을 활용한 global attention. 이런 문제에 대해 이젠 좀 정석적인 태클 방법 같기도 하네요.
#efficient_attention