https://arxiv.org/abs/2110.02782
How BPE Affects Memorization in Transformers (Eugene Kharitonov, Marco Baroni, Dieuwke Hupkes)
bpe의 voca 개수가 증가하면 학습 데이터를 더 잘 기억해버리는 경향이 있다고. 아마도 voca 수가 들어나면서 시퀀스 길이가 줄어들기 때문일 거라는 추측이네요.
#tokenizer
https://arxiv.org/abs/2110.02782
How BPE Affects Memorization in Transformers (Eugene Kharitonov, Marco Baroni, Dieuwke Hupkes)
bpe의 voca 개수가 증가하면 학습 데이터를 더 잘 기억해버리는 경향이 있다고. 아마도 voca 수가 들어나면서 시퀀스 길이가 줄어들기 때문일 거라는 추측이네요.
#tokenizer