Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 427 Bytes

210422 Multiscale Vision Transformers.md

File metadata and controls

7 lines (4 loc) · 427 Bytes

https://arxiv.org/abs/2104.11227

Multiscale Vision Transformers (Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer)

vit에 풀링을 끼얹으면 효율적이다 다시 한 번 더. fairscale이라서 그런지 비디오에 대해서도 했네요. 서로 통하는 아이디어가 이렇게 연달아서 나오는 것도 처음인 것 같네요.

#vision_transformer