Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 490 Bytes

230626 Kosmos-2.md

File metadata and controls

7 lines (4 loc) · 490 Bytes

https://arxiv.org/abs/2306.14824

Kosmos-2: Grounding Multimodal Large Language Models to the World (Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei)

Kosmos-2가 나왔군요. 여기서 주로 수행한 작업은 텍스트 내 각 명사에 대한 bounding box, 텍스트 내 지시 표현 (referring expression)에 대한 bounding box 데이터셋을 image-text pair 데이터셋을 통해 구축했다는 것이겠네요.

#vision-language #multimodal