https://arxiv.org/abs/2205.13515
Green Hierarchical Vision Transformer for Masked Image Modeling (Lang Huang, Shan You, Mingkai Zheng, Fei Wang, Chen Qian, Toshihiko Yamasaki)
mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 2: 이미지 토큰들을 모아서 일정 그룹 크기로 재배치한 다음 사용하기.
#self_supervised