https://arxiv.org/abs/2004.03808
Improving BERT with Self-Supervised Attention (Xiaoyu Kou, Yaming Yang, Yujing Wang, Ce Zhang, Yiren Chen, Yunhai Tong, Yan Zhang, Jing Bai)
파인튜닝된 BERT 모델들이 단어의 변동에 민감하게 반응한다는 것에서 시작한 아이디어. 파인튜닝 과정에서 이전 에폭 모델을 가져와 단어를 마스킹했을 때 예측이 바뀌는지를 체크. 이 변화 여부를 모델이 예측하게 만듦. 일종의 self distillation 같기도?
#bert #distillation #self_supervised