https://arxiv.org/abs/2306.15595
Extending Context Window of Large Language Models via Positional Interpolation (Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian)
position encoding interpolation 얼마 전에 블로그로 돌아다녔는데, 같은 아이디어가 논문으로 나왔군요. position encoding interpolation이 그냥 파인튜닝한 것보다 낫고, 파인튜닝을 할 때도 그냥 하는 것보다는 position encoding interpolation 이후에 하는 것이 낫다는 것을 시사하고 있네요. (그냥 파인튜닝을 하면 context window가 거의 늘어나지 않는 것처럼 보입니다.)
#positional_encoding