https://arxiv.org/abs/2002.06170
Transformer on a Diet (Chenguang Wang, Zihao Ye, Aston Zhang, Zheng Zhang, Alexander J. Smola)
self attention의 패턴을 조정해서 트랜스포머를 효율적으로 만들어보기. wavenet 이후 cnn으로 nlp를 해보려는 시도가 나오던 시절이 생각나는 디자인. (추억돋음)
#transformer #efficient_attention