https://arxiv.org/abs/2307.02770
Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback (TaeHo Yoon, Kibeom Myoung, Keon Lee, Jaewoong Cho, Albert No, Ernest K. Ryu)
diffusion 모델에 대한 censoring. censoring이라고 표현했지만 human feedback을 샘플링에 결합하는 방법이라고 생각할 수 있지 않을까 싶네요. 사람의 피드백 정보를 기반으로 reward model을 만들고 이 모델을 샘플링 과정에 결합하는 방법입니다.
#ddpm