Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 367 Bytes

201221 RealFormer.md

File metadata and controls

7 lines (4 loc) · 367 Bytes

https://arxiv.org/abs/2012.11747

RealFormer: Transformer Likes Residual Attention (Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie)

attention score를 다음 attention에 skip connection으로 붙여주는 트랜스포머. 분석 결과를 보면 attention이 레이어마다 따로 놀지 않게 하는 효과가 주효한 듯.

#transformer #attention