https://arxiv.org/pdf/2105.03889.pdf
Conformer: Local Features Coupling Global Representations for Visual Recognition (Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, Jianbin Jiao, Qixiang Ye)
cnn으로 local을 잡고 transformer로 global을 잡겠다는 좀 더 전통적인 접근. 특이한 점은 cnn과 transformer를 독립적인 브랜치로 설정했다는 부분이겠네요. 그런데 왜 하필 이름이 conformer죠!? [[200516 Conformer]]는 옆동네이긴 합니다만.
#vision_transformer