Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 507 Bytes

200225 MiniLM.md

File metadata and controls

7 lines (4 loc) · 507 Bytes

https://arxiv.org/abs/2002.10957

MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers (Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou)

트랜스포머의 마지막 self attention을 distill하고 self attention처럼 value 사이의 내적을 구해서 그 내적 사이에서도 distill하는 방법. 트랜스포머를 경량화하다보니 그에 맞는 흥미로운 시도들이 나오는 듯.

#language_model #distillation #lightweight