https://arxiv.org/abs/2104.10935
So-ViT: Mind Visual Tokens for Vision Transformer (Jiangtao Xie, Ruiren Zeng, Qilong Wang, Ziqi Zhou, Peihua Li)
와 covariance pooling이 다시 나왔군요. 원래 이거 하던 저자들이긴 합니다만...vision transformer에서 cnn 구조의 재발견을 하고 있어서 그런지 이런 것들이 다시 나오네요.
#vision_transformer