Vision-Language Pre-Training with Triple Contrastive Learning (Jinyu Yang, Jiali Duan, Son Tran, Yi Xu, Sampath Chanda, Liqun Chen, Belinda Zeng, Trishul Chilimbi, Junzhou Huang)

vision-language 모델들이 서로 다른 modality의 alignment에 대해서는 많이 탐색했는데 개별 modal에 대한 representation 학습은 없지 않았나 하는 아이디어. 그래서 cross modal align + intra modal align을 기본으로 하고 global-local mi, image-text matching, mlm을 끼얹은 vision-language model을 만들었습니다.

#vision-language

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220221 Vision-Language Pre-Training with Triple Contrastive Learning.md

220221 Vision-Language Pre-Training with Triple Contrastive Learning.md

Files

220221 Vision-Language Pre-Training with Triple Contrastive Learning.md

Latest commit

History

220221 Vision-Language Pre-Training with Triple Contrastive Learning.md

File metadata and controls