How much pretraining data do language models need to learn syntax? (Laura Pérez-Mayos, Miguel Ballesteros, Leo Wanner)

음 더 많은 데이터를 쓰면 더 잘 배우고 downstream task에 대해서도 성능이 높아지고 그렇기는 합니다. https://arxiv.org/abs/2011.04946 에서 1억 단어 정도면 syntactic/semantic한 정보는 대부분 배우는 것 같다고 보고했었는데 결과가 상통하는 점이 있는 것 같네요. 그 이상의 데이터는 commonsense의 문제일 수도 있겠죠.

#bert #pretraining

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210907 How much pretraining data do language models need to learn syntax.md

210907 How much pretraining data do language models need to learn syntax.md

Files

210907 How much pretraining data do language models need to learn syntax.md

Latest commit

History

210907 How much pretraining data do language models need to learn syntax.md

File metadata and controls