https://arxiv.org/abs/2302.09915
TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training (Chang Chen, Min Li, Zhihua Wu, Dianhai Yu, Chao Yang)
오랜만에 MoE 최적화 논문을 보네요. GPU간 연결 상태를 고려해서 routing 한다는 아이디어입니다. 뭔가 본래 MoE는 각 데이터에 대해서 최적인 전문 모델을 사용해서 성능을 올린다가 원 motivation이었던 것 같은데 요즘은 모델을 쪼갠다/sparse하게 만든다에 초점이 맞춰진 것 같네요.
과연 MoE 기반 모델이 차기 거대 모델로서 등장할까요? 궁금하네요.
#mixture_of_experts