https://arxiv.org/abs/2108.05305
ConvNets vs. Transformers: Whose Visual Representations are More Transferable? (Hong-Yu Zhou, Chixiang Lu, Sibei Yang, Yizhou Yu)
트랜스포머 vs cnn 중 어느 쪽이 더 generalizable하고 robust한 representation을 출력하는가. 트랜스포머가 더 낫다는 건 이젠 다 아는 사실이죠.
vit와 swin이 다양한 도메인과 과제에서 더 나은 스코어를 보여줍니다. 흥미로운 점 하나는 vit는 classification에서 전체 모델에 대한 파인튜닝이 필요한데 swin은 linear evaluation만으로도 괜찮다는 점이네요. 역시 빛윈- 트랜스포머. 왜 당신의 백본은 아직도 swin transformer가 아닌가요?
#vit #robustness #transfer