https://arxiv.org/abs/2104.14294
Emerging Properties in Self-Supervised Vision Transformers (Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin)
어제 vit에서의 cam에 대해 말씀하신 분이 있었던 것 같은데, 마침 관련된 논문이 나왔네요. self supervision + vit 조건에서 self attention map이 거의 semantic segmentation 수준의 특성을 보여주는군요.
#saliency #vision_transformer #contrastive_learning #representation