UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes (Alexander Kolesnikov, André Susano Pinto, Lucas Beyer, Xiaohua Zhai, Jeremiah Harmsen, Neil Houlsby)

레이블을 vq-vae로 제한된 길이의 discrete code로 인코딩한 다음 이 코드와 이미지를 사용해 비전 과제를 수행하는 모델을 만들고, autoregressive 모델로 이미지에서 discrete code를 생성한 다음 이 코드를 사용하는 방식의 모델. 다양한 비전 과제를 동일한 구조로 통합했습니다. 오라클을 사용하는 접근이 이렇게 다시 등장하네요.

#multitask

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220520 UViM.md

220520 UViM.md

Files

220520 UViM.md

Latest commit

History

220520 UViM.md

File metadata and controls