https://arxiv.org/abs/2109.03160
How much pretraining data do language models need to learn syntax? (Laura Pérez-Mayos, Miguel Ballesteros, Leo Wanner)
음 더 많은 데이터를 쓰면 더 잘 배우고 downstream task에 대해서도 성능이 높아지고 그렇기는 합니다. https://arxiv.org/abs/2011.04946 에서 1억 단어 정도면 syntactic/semantic한 정보는 대부분 배우는 것 같다고 보고했었는데 결과가 상통하는 점이 있는 것 같네요. 그 이상의 데이터는 commonsense의 문제일 수도 있겠죠.
#bert #pretraining