https://arxiv.org/abs/2011.13635
Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for BERT Training Speedup (Cheng Yang, Shengnan Wang, Chao Yang, Yuechuan Li, Ru He, Jingqiao Zhang)
bert 프리트레이닝 속도 개선. 레이어를 하나씩 쌓아가면서 새로 추가한 레이어만 학습시키는 방식. 학습 시간을 절반으로 줄임. electra 같은 모델과 결합할 수는 없을까 싶기도 하고.
#pretraining #efficiency