https://arxiv.org/abs/2106.09650
Multi-head or Single-head? An Empirical Comparison for Transformer Training (Liyuan Liu, Jialu Liu, Jiawei Han)
어텐션 헤드 숫자를 줄이고, 그만큼 줄어드는 임베딩 차원 만큼 깊이를 깊게 만든 트랜스포머. 굳이 이런 디자인을 채택할 이유까지는 없을 것 같긴 한데...이런 형태로도 비슷한 성능 특성들을 나왔다는 것은 재미있긴 하네요.
#transformer