Image Captioners Are Scalable Vision Learners Too (Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer)

contrastive learning이 아닌 caption generation 같은 generative pretraining이 vision encoder 학습에도 효과적이라는 연구. 특이한 것은 autoregressive loss 뿐만 아니라 non autoregressive loss도 결합해서 같이 학습시켰다는 점이네요. vision encoder는 쓸만한 것이 나오긴 하는데 text decoder를 어떻게 좀 더 활용할 수 있는지가 중요한 부분이 될 것 같군요.

#multimodal #vision-language

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230613 Image Captioners Are Scalable Vision Learners Too.md

230613 Image Captioners Are Scalable Vision Learners Too.md

Files

230613 Image Captioners Are Scalable Vision Learners Too.md

Latest commit

History

230613 Image Captioners Are Scalable Vision Learners Too.md

File metadata and controls