https://arxiv.org/abs/2205.13137

MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning (Jihao Liu, Xin Huang, Yu Liu, Hongsheng Li)

mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 3: 애초에 마스크 토큰을 써야할 이유가 있을까? 마스킹을 하는 대신 다른 이미지를 섞어서 한 번에 두 가지 이미지를 recon 하게 만들면 된다.

#self_supervised

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220526 MixMIM.md

220526 MixMIM.md

Files

220526 MixMIM.md

Latest commit

History

220526 MixMIM.md

File metadata and controls