Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 672 Bytes

220711 Exploring Length Generalization in Large Language Models.md

File metadata and controls

7 lines (4 loc) · 672 Bytes

https://arxiv.org/abs/2207.04901

Exploring Length Generalization in Large Language Models (Cem Anil, Yuhuai Wu, Anders Andreassen, Aitor Lewkowycz, Vedant Misra, Vinay Ramasesh, Ambrose Slone, Guy Gur-Ari, Ethan Dyer, Behnam Neyshabur)

저번 주에 out of length generalization에 대해 언급했었는데 그와 연관되는 결과가 나왔네요. llm을 사용한 프로그램 실행 과제에서 학습시 봤던 길이 이상의 프로그램으로 일반화를 할 수 있는가라는 문제인데 기본적으로 안 되지만 scratchpad 사용, few shot prompting, finetuning이 결합되면 성능이 어느 정도 올라온다는 것을 보였습니다.

#llm