https://arxiv.org/abs/2302.11665
AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving (Zhuohan Li, Lianmin Zheng, Yinmin Zhong, Vincent Liu, Ying Sheng, Xin Jin, Yanping Huang, Zhifeng Chen, Hao Zhang, Joseph E. Gonzalez, Ion Stoica)
Alpa는 모델 서빙을 위한 개발 작업을 하고 있군요. 새삼 OpenAI의 90% 비용 절감의 레시피가 궁금해지네요.