https://arxiv.org/abs/2306.14824

Kosmos-2: Grounding Multimodal Large Language Models to the World (Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei)

Kosmos-2가 나왔군요. 여기서 주로 수행한 작업은 텍스트 내 각 명사에 대한 bounding box, 텍스트 내 지시 표현 (referring expression)에 대한 bounding box 데이터셋을 image-text pair 데이터셋을 통해 구축했다는 것이겠네요.

#vision-language #multimodal

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230626 Kosmos-2.md

230626 Kosmos-2.md

Files

230626 Kosmos-2.md

Latest commit

History

230626 Kosmos-2.md

File metadata and controls