https://arxiv.org/abs/2106.04718
FastSeq: Make Sequence Generation Faster (Yu Yan, Fei Hu, Jiusheng Chen, Nikhil Bhendawade, Ting Ye, Yeyun Gong, Nan Duan, Desheng Cui, Bingyu Chi, Ruifei Zhang)
트랜스포머 디코딩을 깎느라 짜증난 사람들이 많았을 텐데 마이크로소프트 사람들이 대신 깎아왔군요. 트랜스포머는 MS 제품을 씁시다.
#decoding