https://arxiv.org/abs/2211.08332
Versatile Diffusion: Text, Images and Variations All in One Diffusion Model (Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi)
텍스트/이미지를 입력으로 받아 텍스트/이미지를 출력할 수 있는 모델을 사용해서 img2img, text2img, img2text 등등을 한 모델에서 할 수 있게 만들었네요. 이 두 modality 입력/출력에 대한 latent feature에 vae를 적용한 형태입니다.
#ddpm #vae