https://arxiv.org/abs/2105.03322

Are Pre-trained Convolutions Better than Pre-trained Transformers? (Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen Qin, Donald Metzler)

비전판에서 어텐션과 mlp로 노는 동안 nlp판에서는 컨볼루션을 다시 꺼내오면 어떨까 하는 생각을 하고 있었군요. 시퀀스 내 모델링에는 컨볼루션으로 충분한 경우가 꽤 있다고 봅니다. 어텐션 자체가 컨볼루션처럼 거동하는 경우도 많이 있고요.

#pretraining #nlp #convolution #transformer

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210510 Are Pre-trained Convolutions Better than Pre-trained Transformers.md

210510 Are Pre-trained Convolutions Better than Pre-trained Transformers.md

Files

210510 Are Pre-trained Convolutions Better than Pre-trained Transformers.md

Latest commit

History

210510 Are Pre-trained Convolutions Better than Pre-trained Transformers.md

File metadata and controls