https://arxiv.org/abs/2306.07915
Image Captioners Are Scalable Vision Learners Too (Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer)
contrastive learning이 아닌 caption generation 같은 generative pretraining이 vision encoder 학습에도 효과적이라는 연구. 특이한 것은 autoregressive loss 뿐만 아니라 non autoregressive loss도 결합해서 같이 학습시켰다는 점이네요. vision encoder는 쓸만한 것이 나오긴 하는데 text decoder를 어떻게 좀 더 활용할 수 있는지가 중요한 부분이 될 것 같군요.
#multimodal #vision-language