https://arxiv.org/abs/2205.14100
GIT: A Generative Image-to-text Transformer for Vision and Language (Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang)
florence를 이미지 인코더로 쓰고 텍스트 디코더에 같이 입력한 다음 text generation 학습. 0.8B 정도 데이터에 학습해서 수많은 visual/video qa, captioning, scene text recognition 벤치마크에서 sota를 달성했습니다.
#multimodal