https://arxiv.org/abs/2205.13137
MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning (Jihao Liu, Xin Huang, Yu Liu, Hongsheng Li)
mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 3: 애초에 마스크 토큰을 써야할 이유가 있을까? 마스킹을 하는 대신 다른 이미지를 섞어서 한 번에 두 가지 이미지를 recon 하게 만들면 된다.
#self_supervised