https://arxiv.org/abs/2012.11747
RealFormer: Transformer Likes Residual Attention (Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie)
attention score를 다음 attention에 skip connection으로 붙여주는 트랜스포머. 분석 결과를 보면 attention이 레이어마다 따로 놀지 않게 하는 효과가 주효한 듯.
#transformer #attention