Intriguing Properties of Vision Transformers (Muzammal Naseer, Kanchana Ranasinghe, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang)

vit가 패치 지우기 등의 perturbation이나 도메인 차이에 더 robust하고, text vs shape에서 shape쪽에 더 bias를 갖고 있다는 보고. 여기서 distillation으로 shape bias를 강화해주니 dino와 같은 segmentation map의 형성 패턴이 나타나는군요.

cnn과 transformer가 왜 패턴이 다른가를 밝히는 것이 흥미로운 문제가 될 듯 한데 가장 먼저 생각나는 건 locality군요. swin transformer 같은 본격적인 local attention에서의 패턴이 어떨지 궁금하네요.

[[210429 Emerging Properties in Self-Supervised Vision Transformers]] [[210515 Are Convolutional Neural Networks or Transformers more like human vision]] [[210517 Rethinking the Design Principles of Robust Vision Transformer]]

#vit #robustness

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210521 Intriguing Properties of Vision Transformers.md

210521 Intriguing Properties of Vision Transformers.md

Files

210521 Intriguing Properties of Vision Transformers.md

Latest commit

History

210521 Intriguing Properties of Vision Transformers.md

File metadata and controls