Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 573 Bytes

230529 RAPHAEL.md

File metadata and controls

7 lines (4 loc) · 573 Bytes

https://arxiv.org/abs/2305.18295

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths (Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo)

diffusion 모델에서 등장했던 time 방향의 mixture of expert에 더해, 토큰에 대한 spatial attention map을 사용해 각 토큰에 대한 spatial expert들을 결합하는 spatial mixture of expert를 사용해 구성한 모델이네요. 이 개선 하나만으로 달성한 성능은 아니겠지만 샘플 이미지들의 퀄리티가 꽤 좋아 보입니다.

#ddpm