https://arxiv.org/abs/2301.13826
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models (Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, Daniel Cohen-Or)
text2image의 cross attention map에서 특정 텍스트 토큰이 잘 반영되지 않는 경우를 막도록 (최소 한 패치에서나마 attention이 주어지도록) 제어해서 텍스트에 좀 더 잘 부합하는 이미지를 만들겠다는 아이디어군요.
https://arxiv.org/abs/2208.01626 의 사례도 그렇고 이 cross attention map을 사용해서 할 수 있는 것들이 많다고 생각을 합니다. 그런데 생각을 한다기에는 이미 많은 사람들이 쓰고 있는 방법일지도 모르겠네요.
#ddpm #text2img