https://arxiv.org/abs/2006.03236
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing (Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le)
시퀀스 u-net. 풀링 과정에서 key, value에는 풀링 전의 시퀀스를 활용하는 것과 [cls] 토큰에 대한 처리 등의 고려가 사용됨. 단어도 풀링할 수 있다!
#transformer #efficient_attention