https://arxiv.org/abs/2011.13635

Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for BERT Training Speedup (Cheng Yang, Shengnan Wang, Chao Yang, Yuechuan Li, Ru He, Jingqiao Zhang)

bert 프리트레이닝 속도 개선. 레이어를 하나씩 쌓아가면서 새로 추가한 레이어만 학습시키는 방식. 학습 시간을 절반으로 줄임. electra 같은 모델과 결합할 수는 없을까 싶기도 하고.

#pretraining #efficiency

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

201127 Progressively Stacking 2.0.md

201127 Progressively Stacking 2.0.md

Files

201127 Progressively Stacking 2.0.md

Latest commit

History

201127 Progressively Stacking 2.0.md

File metadata and controls