https://arxiv.org/abs/2302.01318

Accelerating Large Language Model Decoding with Speculative Sampling (Charlie Chen, Sebastian Borgeaud, Geoffrey Irving, Jean-Baptiste Lespiau, Laurent Sifre, John Jumper)

딥 마인드에서 이런 작업을 했군요. llm으로 토큰 한 번 뽑는 시간과 K개 토큰에 대한 logit을 계산하는 시간이 비슷하니, 작은 lm으로 일단 K개 토큰을 뽑고 그 K개 토큰을 llm으로 평가해서 쓸만한 토큰 subsequence를 rejection sampling으로 뽑는 방법입니다. TPU에서 대략 2배 정도의 속도 향상이 있었군요.

#autoregressive_model #decoding

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230202 Accelerating Large Language Model Decoding with Speculative Sampling.md

230202 Accelerating Large Language Model Decoding with Speculative Sampling.md

Files

230202 Accelerating Large Language Model Decoding with Speculative Sampling.md

Latest commit

History

230202 Accelerating Large Language Model Decoding with Speculative Sampling.md

File metadata and controls