Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 658 Bytes

230410 Inference with Reference.md

File metadata and controls

7 lines (4 loc) · 658 Bytes

https://arxiv.org/abs/2304.04487

Inference with Reference: Lossless Acceleration of Large Language Models (Nan Yang, Tao Ge, Liang Wang, Binxing Jiao, Daxin Jiang, Linjun Yang, Rangan Majumder, Furu Wei)

llm 디코딩 가속. lm에서 생성한 토큰들 중 마지막 N개와 매칭되는 레퍼런스 문서의 시퀀스가 있는지 확인하고, 시퀀스가 있다면 가져와서 lm에 입력으로 넣은 뒤 argmax를 해서 lm의 출력과 consistent한지 체크하고 consistent한 토큰들을 생성 토큰으로 출력. speculative decoding에서 모델을 따로 쓰는 대신 retrieval로 해결했다는 느낌이네요.

#efficiency #llm