Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 654 Bytes

230627 Extending Context Window of Large Language Models via Positional Interpolation.md

File metadata and controls

7 lines (4 loc) · 654 Bytes

https://arxiv.org/abs/2306.15595

Extending Context Window of Large Language Models via Positional Interpolation (Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian)

position encoding interpolation 얼마 전에 블로그로 돌아다녔는데, 같은 아이디어가 논문으로 나왔군요. position encoding interpolation이 그냥 파인튜닝한 것보다 낫고, 파인튜닝을 할 때도 그냥 하는 것보다는 position encoding interpolation 이후에 하는 것이 낫다는 것을 시사하고 있네요. (그냥 파인튜닝을 하면 context window가 거의 늘어나지 않는 것처럼 보입니다.)

#positional_encoding