Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 575 Bytes

210907 How much pretraining data do language models need to learn syntax.md

File metadata and controls

7 lines (4 loc) · 575 Bytes

https://arxiv.org/abs/2109.03160

How much pretraining data do language models need to learn syntax? (Laura Pérez-Mayos, Miguel Ballesteros, Leo Wanner)

음 더 많은 데이터를 쓰면 더 잘 배우고 downstream task에 대해서도 성능이 높아지고 그렇기는 합니다. https://arxiv.org/abs/2011.04946 에서 1억 단어 정도면 syntactic/semantic한 정보는 대부분 배우는 것 같다고 보고했었는데 결과가 상통하는 점이 있는 것 같네요. 그 이상의 데이터는 commonsense의 문제일 수도 있겠죠.

#bert #pretraining