https://arxiv.org/abs/2305.14705
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models (Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei, Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu, Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt Keutzer, Trevor Darrell, Denny Zhou)
그리고 정말로 moe라고 하면 이 논문을 생각해보게 되네요. mixture of expert lm이 instruction tuning과 결합되었을 때 상당한 부스트가 발생한다는 결과입니다. 물론 저자들 중 일부가 OpenAI로 옮겼다고 하고요.
#mixture_of_experts