Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 805 Bytes

220802 An Image is Worth One Word.md

File metadata and controls

9 lines (5 loc) · 805 Bytes

https://arxiv.org/abs/2208.01618

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or)

text-to-image 모델에 우리가 원하는 대상이나 스타일을 어떻게 입력으로 줄 수 있을까? 그에 해당하는 프롬프트를 찾는 대신 이미지 몇 장을 가지고 text-to-image 모델을 inversion 해서 그 이미지에 해당하는 word embedding을 찾아냅니다. 이 때 프롬프트를 A photo of S 같은 식으로 주면 객체가 추출되고 A painting in the style of S 같은 식으로 주면 스타일이 추출되는군요.

inversion이 필요하긴 한데 어쨌든 editing을 위한 도구가 될 수 있겠네요.

#image_editing