https://arxiv.org/abs/2206.08916

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks (Jiasen Lu, Christopher Clark, Rowan Zellers, Roozbeh Mottaghi, Aniruddha Kembhavi)

VQ-VAE 토큰과 텍스트 토큰을 밀어넣고 seq2seq로 vision/text/vision-language/image generation 과제들을 전부 태클. 각 과제에 대한 파인튜닝 없이(!)

#vision-language #multitask

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220617 Unified-IO.md

220617 Unified-IO.md

Files

220617 Unified-IO.md

Latest commit

History

220617 Unified-IO.md

File metadata and controls