Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 460 Bytes

210617 Multi-head or Single-head.md

File metadata and controls

7 lines (4 loc) · 460 Bytes

https://arxiv.org/abs/2106.09650

Multi-head or Single-head? An Empirical Comparison for Transformer Training (Liyuan Liu, Jialu Liu, Jiawei Han)

어텐션 헤드 숫자를 줄이고, 그만큼 줄어드는 임베딩 차원 만큼 깊이를 깊게 만든 트랜스포머. 굳이 이런 디자인을 채택할 이유까지는 없을 것 같긴 한데...이런 형태로도 비슷한 성능 특성들을 나왔다는 것은 재미있긴 하네요.

#transformer