https://arxiv.org/abs/2112.10741
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models (Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen)
diffusion model 자체를 사용하는 classifier free guidance에 텍스트 입력을 결합한 텍스트 기반 ddpm. ddpm은 모델이 순식간에 3.5B 수준까지 올라왔네요. 이젠 실제 사진이 아니라고 믿기 어려운 수준까지 왔네요.
#ddpm #multimodal