Skip to content

Latest commit

 

History

History
13 lines (8 loc) · 968 Bytes

210521 Intriguing Properties of Vision Transformers.md

File metadata and controls

13 lines (8 loc) · 968 Bytes

https://arxiv.org/abs/2105.10497

Intriguing Properties of Vision Transformers (Muzammal Naseer, Kanchana Ranasinghe, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang)

vit가 패치 지우기 등의 perturbation이나 도메인 차이에 더 robust하고, text vs shape에서 shape쪽에 더 bias를 갖고 있다는 보고. 여기서 distillation으로 shape bias를 강화해주니 dino와 같은 segmentation map의 형성 패턴이 나타나는군요.

cnn과 transformer가 왜 패턴이 다른가를 밝히는 것이 흥미로운 문제가 될 듯 한데 가장 먼저 생각나는 건 locality군요. swin transformer 같은 본격적인 local attention에서의 패턴이 어떨지 궁금하네요.

[[210429 Emerging Properties in Self-Supervised Vision Transformers]] [[210515 Are Convolutional Neural Networks or Transformers more like human vision]] [[210517 Rethinking the Design Principles of Robust Vision Transformer]]

#vit #robustness