https://arxiv.org/abs/2202.10401
Vision-Language Pre-Training with Triple Contrastive Learning (Jinyu Yang, Jiali Duan, Son Tran, Yi Xu, Sampath Chanda, Liqun Chen, Belinda Zeng, Trishul Chilimbi, Junzhou Huang)
vision-language 모델들이 서로 다른 modality의 alignment에 대해서는 많이 탐색했는데 개별 modal에 대한 representation 학습은 없지 않았나 하는 아이디어. 그래서 cross modal align + intra modal align을 기본으로 하고 global-local mi, image-text matching, mlm을 끼얹은 vision-language model을 만들었습니다.
#vision-language