https://arxiv.org/abs/2205.10337
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes (Alexander Kolesnikov, André Susano Pinto, Lucas Beyer, Xiaohua Zhai, Jeremiah Harmsen, Neil Houlsby)
레이블을 vq-vae로 제한된 길이의 discrete code로 인코딩한 다음 이 코드와 이미지를 사용해 비전 과제를 수행하는 모델을 만들고, autoregressive 모델로 이미지에서 discrete code를 생성한 다음 이 코드를 사용하는 방식의 모델. 다양한 비전 과제를 동일한 구조로 통합했습니다. 오라클을 사용하는 접근이 이렇게 다시 등장하네요.
#multitask