https://arxiv.org/abs/2306.14824
Kosmos-2: Grounding Multimodal Large Language Models to the World (Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei)
Kosmos-2가 나왔군요. 여기서 주로 수행한 작업은 텍스트 내 각 명사에 대한 bounding box, 텍스트 내 지시 표현 (referring expression)에 대한 bounding box 데이터셋을 image-text pair 데이터셋을 통해 구축했다는 것이겠네요.
#vision-language #multimodal