Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 567 Bytes

210813 Curriculum Learning.md

File metadata and controls

7 lines (4 loc) · 567 Bytes

https://arxiv.org/abs/2108.06084

Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training (Conglong Li, Minjia Zhang, Yuxiong He)

커리큘럼 러닝으로 gpt-2 학습 시간을 반토막 내버리기. 특별히 복잡한 기준도 아니고 시퀀스 길이를 난이도 메트릭으로 설정해서 진행했군요. 시퀀스 길이를 차등화해서 학습시키는 것이 그 자체로 모델에 흔적을 남기는 것 같기는 한데 실용적인 수준에서는 어떨지 모르겠네요.

#lm #curriculum