Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 353 Bytes

211006 How BPE Affects Memorization in Transformers.md

File metadata and controls

7 lines (4 loc) · 353 Bytes

https://arxiv.org/abs/2110.02782

How BPE Affects Memorization in Transformers (Eugene Kharitonov, Marco Baroni, Dieuwke Hupkes)

bpe의 voca 개수가 증가하면 학습 데이터를 더 잘 기억해버리는 경향이 있다고. 아마도 voca 수가 들어나면서 시퀀스 길이가 줄어들기 때문일 거라는 추측이네요.

#tokenizer