RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths (Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo)
diffusion 모델에서 등장했던 time 방향의 mixture of expert에 더해, 토큰에 대한 spatial attention map을 사용해 각 토큰에 대한 spatial expert들을 결합하는 spatial mixture of expert를 사용해 구성한 모델이네요. 이 개선 하나만으로 달성한 성능은 아니겠지만 샘플 이미지들의 퀄리티가 꽤 좋아 보입니다.