https://arxiv.org/abs/2209.04881
On The Computational Complexity of Self-Attention (Feyza Duman Keles, Pruthuvi Mahesakya Wijewardena, Chinmay Hegde)
softmax self attention을 제대로 근사하려면 결과적으로 quadratic complexity가 필연적이라는 주장이네요. softmax self attention을 근사할 필요가 없다고 주장할 수 있으면 좋겠지만 efficient attention들이 scaling behavior에 문제가 있다는 보고가 나온 시점에서는 상황이 좋진 않겠습니다.
#efficient_attention