https://arxiv.org/abs/1907.11692 얼마 전에 리더보드에 등장했던 RoBERTa preprint가 공개됐다. 코드 자체는 fairseq에 며칠 전에 공개됐었고...생각보다 특별한 건 없다. (얼마 전에 공개됐던 SpanBERT 같은 케이스는 아닌 듯. https://arxiv.org/abs/1907.10529) 핵심은 시퀀스를 트레이닝에 투입할 때마다 마스킹을 다르게 하는 것, 다음 문장 예측을 빼는 것, 배치 크기 증가, GPT-2식의 BPE 사용, 더 많은 데이터를 (160 GB!) 더 많이 학습 (이터레이션 증가), 그리고 하이퍼파라미터 조정. 트레이닝에는 V100 1024개를 하루 투입했다고.
#pretraining #language_model