https://arxiv.org/abs/2108.08827
ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis (Patrick Esser, Robin Rombach, Andreas Blattmann, Björn Ommer)
트랜스포머를 길들이던 아저씨들이 diffusion 모델을 길들이고 계셨네요. vq를 사용해 이미지 크기를 축소한 다음 코드북 위에서 multinomial diffusion을 3 ~ 5 스텝 돌리는 것으로 생성 문제를 태클했습니다. 재미있네요.
#ddpm #vq #autoregressive_model