High-throughput Generative Inference of Large Language Models with a Single GPU (Ying Sheng, Lianmin Zheng, Binhang Yuan, Zhuohan Li, Max Ryabinin, Daniel Y. Fu, Zhiqiang Xie, Beidi Chen, Clark Barrett, Joseph E. Gonzalez, Percy Liang, Christopher Ré, Ion Stoica, Ce Zhang)

flexgen 논문이 나왔군요. off loading으로 적은 gpu 메모리에 대해서도 llm inference를 하기 위한 방법입니다. 논문에서도 밝히고 있는 것처럼 일정 레이턴시만 달성할 수 있으면 스루풋을 극대화하는 것이 일반적인 시나리오일 것 같긴 합니다.

#llm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230313 High-throughput Generative Inference of Large Language Models with a Single GPU.md

230313 High-throughput Generative Inference of Large Language Models with a Single GPU.md

Files

230313 High-throughput Generative Inference of Large Language Models with a Single GPU.md

Latest commit

History

230313 High-throughput Generative Inference of Large Language Models with a Single GPU.md

File metadata and controls