https://arxiv.org/abs/2103.10697
ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases (Stéphane d'Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, Levent Sagun)
초기화 시점에 self attention이 convolution처럼 거동하게 해서 vision transformer의 성능 향상. 뭔가...뭔가 갈수록 vision transformer가 cnn 아키텍처들의 선택들이 훌륭했다는 것을 증명해주는 느낌?
#vision_transformer