https://arxiv.org/abs/2208.01618
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or)
text-to-image 모델에 우리가 원하는 대상이나 스타일을 어떻게 입력으로 줄 수 있을까? 그에 해당하는 프롬프트를 찾는 대신 이미지 몇 장을 가지고 text-to-image 모델을 inversion 해서 그 이미지에 해당하는 word embedding을 찾아냅니다. 이 때 프롬프트를 A photo of S 같은 식으로 주면 객체가 추출되고 A painting in the style of S 같은 식으로 주면 스타일이 추출되는군요.
inversion이 필요하긴 한데 어쨌든 editing을 위한 도구가 될 수 있겠네요.
#image_editing