https://arxiv.org/abs/2105.03322
Are Pre-trained Convolutions Better than Pre-trained Transformers? (Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen Qin, Donald Metzler)
비전판에서 어텐션과 mlp로 노는 동안 nlp판에서는 컨볼루션을 다시 꺼내오면 어떨까 하는 생각을 하고 있었군요. 시퀀스 내 모델링에는 컨볼루션으로 충분한 경우가 꽤 있다고 봅니다. 어텐션 자체가 컨볼루션처럼 거동하는 경우도 많이 있고요.
#pretraining #nlp #convolution #transformer