Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 593 Bytes

220221 Vision-Language Pre-Training with Triple Contrastive Learning.md

File metadata and controls

7 lines (4 loc) · 593 Bytes

https://arxiv.org/abs/2202.10401

Vision-Language Pre-Training with Triple Contrastive Learning (Jinyu Yang, Jiali Duan, Son Tran, Yi Xu, Sampath Chanda, Liqun Chen, Belinda Zeng, Trishul Chilimbi, Junzhou Huang)

vision-language 모델들이 서로 다른 modality의 alignment에 대해서는 많이 탐색했는데 개별 modal에 대한 representation 학습은 없지 않았나 하는 아이디어. 그래서 cross modal align + intra modal align을 기본으로 하고 global-local mi, image-text matching, mlm을 끼얹은 vision-language model을 만들었습니다.

#vision-language