https://arxiv.org/abs/2011.14660
Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training (Shuai Zhao, Liguang Zhou, Wenxiao Wang, Deng Cai, Tin Lun Lam, Yangsheng Xu)
모델 scaling에는 깊이, 폭, 입력 크기 말고 모델의 수도 포함시킬 수 있지 않은가 하는 아이디어. 작은 모델 여러 개를 같이 학습시키고 앙상블.
#scale