https://arxiv.org/abs/2108.06084
Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training (Conglong Li, Minjia Zhang, Yuxiong He)
커리큘럼 러닝으로 gpt-2 학습 시간을 반토막 내버리기. 특별히 복잡한 기준도 아니고 시퀀스 길이를 난이도 메트릭으로 설정해서 진행했군요. 시퀀스 길이를 차등화해서 학습시키는 것이 그 자체로 모델에 흔적을 남기는 것 같기는 한데 실용적인 수준에서는 어떨지 모르겠네요.
#lm #curriculum