https://arxiv.org/abs/2205.14100

GIT: A Generative Image-to-text Transformer for Vision and Language (Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang)

florence를 이미지 인코더로 쓰고 텍스트 디코더에 같이 입력한 다음 text generation 학습. 0.8B 정도 데이터에 학습해서 수많은 visual/video qa, captioning, scene text recognition 벤치마크에서 sota를 달성했습니다.

#multimodal

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220527 GIT.md

220527 GIT.md

Files

220527 GIT.md

Latest commit

History

220527 GIT.md

File metadata and controls