ml-papers/papers/2021/210422 Multiscale Vision Transformers.md at main · rosinality/ml-papers · GitHub

https://arxiv.org/abs/2104.11227

Multiscale Vision Transformers (Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer)

vit에 풀링을 끼얹으면 효율적이다 다시 한 번 더. fairscale이라서 그런지 비디오에 대해서도 했네요. 서로 통하는 아이디어가 이렇게 연달아서 나오는 것도 처음인 것 같네요.

#vision_transformer