Inference with Reference: Lossless Acceleration of Large Language Models (Nan Yang, Tao Ge, Liang Wang, Binxing Jiao, Daxin Jiang, Linjun Yang, Rangan Majumder, Furu Wei)

llm 디코딩 가속. lm에서 생성한 토큰들 중 마지막 N개와 매칭되는 레퍼런스 문서의 시퀀스가 있는지 확인하고, 시퀀스가 있다면 가져와서 lm에 입력으로 넣은 뒤 argmax를 해서 lm의 출력과 consistent한지 체크하고 consistent한 토큰들을 생성 토큰으로 출력. speculative decoding에서 모델을 따로 쓰는 대신 retrieval로 해결했다는 느낌이네요.

#efficiency #llm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230410 Inference with Reference.md

230410 Inference with Reference.md

Files

230410 Inference with Reference.md

Latest commit

History

230410 Inference with Reference.md

File metadata and controls