https://arxiv.org/abs/2104.11227
Multiscale Vision Transformers (Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer)
vit에 풀링을 끼얹으면 효율적이다 다시 한 번 더. fairscale이라서 그런지 비디오에 대해서도 했네요. 서로 통하는 아이디어가 이렇게 연달아서 나오는 것도 처음인 것 같네요.
#vision_transformer