Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 647 Bytes

220520 UViM.md

File metadata and controls

7 lines (4 loc) · 647 Bytes

https://arxiv.org/abs/2205.10337

UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes (Alexander Kolesnikov, André Susano Pinto, Lucas Beyer, Xiaohua Zhai, Jeremiah Harmsen, Neil Houlsby)

레이블을 vq-vae로 제한된 길이의 discrete code로 인코딩한 다음 이 코드와 이미지를 사용해 비전 과제를 수행하는 모델을 만들고, autoregressive 모델로 이미지에서 discrete code를 생성한 다음 이 코드를 사용하는 방식의 모델. 다양한 비전 과제를 동일한 구조로 통합했습니다. 오라클을 사용하는 접근이 이렇게 다시 등장하네요.

#multitask