https://arxiv.org/abs/2104.11746
VidTr: Video Transformer Without Convolutions (Xinyu Li, Yanyi Zhang, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe)
aws 쪽의 비디오 트랜스포머. 이런 결과들을 보면 트랜스포머가 비디오에서는 확실한 강점을 가지고 있는 것처럼 보이는데...해본 적이 없어서 실제로 어떨지 궁금하네요.
#video_transformer