Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 385 Bytes

210422 So-ViT.md

File metadata and controls

7 lines (4 loc) · 385 Bytes

https://arxiv.org/abs/2104.10935

So-ViT: Mind Visual Tokens for Vision Transformer (Jiangtao Xie, Ruiren Zeng, Qilong Wang, Ziqi Zhou, Peihua Li)

와 covariance pooling이 다시 나왔군요. 원래 이거 하던 저자들이긴 합니다만...vision transformer에서 cnn 구조의 재발견을 하고 있어서 그런지 이런 것들이 다시 나오네요.

#vision_transformer