Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning (Zhuolin Yang, Wei Ping, Zihan Liu, Vijay Korthikanti, Weili Nie, De-An Huang, Linxi Fan, Zhiding Yu, Shiyi Lan, Bo Li, Ming-Yu Liu, Yuke Zhu, Mohammad Shoeybi, Bryan Catanzaro, Chaowei Xiao, Anima Anandkumar)

retrieval augment를 꼭 텍스트에 대해서만 쓸 필요는 없겠죠. vision-language 모델에서 이미지 입력으로 이미지-캡션 페어를 retrieval 해서 이 캡션을 사용해 캡션을 생성하겠다는 생각.

#vision-language

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230209 Re-ViLM.md

230209 Re-ViLM.md

Files

230209 Re-ViLM.md

Latest commit

History

230209 Re-ViLM.md

File metadata and controls