https://arxiv.org/abs/2201.03545
A ConvNet for the 2020s (Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie)
swin transformer 수준의 성능을 더 고속으로 달성하는 cnn. flops 뿐만 아니라 실제 추론 속도도 빠르다고 보고했습니다. 최근 vit 계통 구조의 성능 향상이 self attention에 의한 근본적인 향상이라기보다는 여러 개선을 통해 다른 구조로도 달성 가능한 특성이 아닌가 하는 생각이 들었는데 이렇게 검증이 되네요.
#cnn #vit #backbone