https://arxiv.org/abs/2011.04946 논문 이야기를 하는 김에 하나 더. lm 프리트레이닝에 왜 그렇게 많은 데이터가 필요할까? 프리트레이닝에 쓰인 단어 수를 변화시켜가면서 학습시킨 모델이 출력하는 임베딩에 어떤 정보가 들어있는지를 probing으로 찔러봤다. 흥미롭게도 단! 1억 단어 정도면 probing에서 나오는 결과가 saturate된다. 그러니까 1억 단어 정도에서도 임베딩에 syntactic 혹은 semantic한 정보는 거의 다 들어있다는 의미로 생각할 수 있다. 그런데 1억 단어로 학습시킨 모델을 들고 superglue 파인튜닝을 하면 성능이 크게 떨어진다. 왜 그럴까? probing으로 커브를 봤을 때 커브가 이질적인 녀석이 딱 하나 있다. winograd coreference. 이 과제는 1억 단어 정도로는 안 되고, 10억 단어 이상에서 향상되기 시작해 300억 단어(roberta)까지 스코어가 크게 향상된다. winograd coreference 과제가 뭐가 다르길래? 이 과제는 commonsense에 초점이 맞춰져 있다. 그렇다면 이 많은 데이터가 필요한 이유는 syntactic/semantic한 정보를 넘어 commonsense를 학습하는 것이 파인튜닝 성능에 도움이 되기 때문인 것은 아닐까? 과연 superglue에는 commonsense와 관련이 강한 과제들이 있다. 물론 이건 간접적인 증거다. commonsense에 초점이 맞춰진 것도 여러가지로 다 찔러봤는데 나온 게 이것 뿐이라서인 감도 좀 있다. 1억 단어 정도로는 학습한 syntactic/semantic한 정보가 파인튜닝에서도 쓸모있는 정도가 안 되는 것일 수도 있다. 모델이 좀 부실(?)한 것일 수도 있고. 그렇지만 여러모로 commonsense가 이질적인 패턴을 보이고 이 commonsense가 중요하다는 것은 설득력이 있어 보인다. 그래서 그 다음 단계로 궁금한 것은 왜 이 commonsense가 이질적인 패턴을 보이는가라고 할 수 있겠다. 10억 단어에서 300억 단어 사이에서 대체 무슨 일이 일어나는 것인가? 좀 더 좁혀서 10억 단어에서 bert 프리트레이닝에 사용된 위키피디아 + bookcorpus의 30억 단어 사이에는 무슨 일이 벌어지는 것인가? 위키피디아의 특정 문서군이나 bookcorpus의 특정 책들이 중요한 역할을 하는가? 이 corpus들 중 더 중요한 것은 어느 쪽인가? 아니면 사실 도메인보다는 일정 이상의 규모를 갖추는 것 자체가 더 중요한가? 생각해볼 가치가 있을 만큼 흥미로운 문제로 보인다.
#review