https://arxiv.org/abs/2305.02440
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs (Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang)
LLM 모델의 efficiency를 염탐하기 위한 방법이네요. latency가 프롬프트 토큰 인코딩과 토큰 생성으로 구성된다고 보고, 동일한 하드웨어와 소프트웨어로 측정한 지표와 API 호출로 측정된 latency를 디노이징한 것을 비교해서 추론 속도를 추정하고, 나타나는 성능을 엮어서 성능과 latency의 트레이드오프를 측정하거나 추론 비용을 추정하는 작업입니다.
#llm #efficiency