https://arxiv.org/abs/2103.10697

ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases (Stéphane d'Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, Levent Sagun)

초기화 시점에 self attention이 convolution처럼 거동하게 해서 vision transformer의 성능 향상. 뭔가...뭔가 갈수록 vision transformer가 cnn 아키텍처들의 선택들이 훌륭했다는 것을 증명해주는 느낌?

#vision_transformer

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210319 ConViT.md

210319 ConViT.md

Files

210319 ConViT.md

Latest commit

History

210319 ConViT.md

File metadata and controls