https://arxiv.org/abs/2010.12821

Rethinking embedding coupling in pre-trained language models (Hyung Won Chung, Thibault Févry, Henry Tsai, Melvin Johnson, Sebastian Ruder)

요즘 lm에선 정석처럼 사용되는 입력-출력 임베딩 weight tying을 풀어버리고 입력 임베딩 크기를 줄여버리기. 오히려 묶은 것보다 성능이 낫다고. wikitext-103 정도 스케일의 과제에서 강력한 방법이었으니 bert 프리트레이닝 스케일에서는 상황이 다른 것이 자연스러운지도.

#language_model #regularization

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

201023 Rethinking embedding coupling in pre-trained language models.md

201023 Rethinking embedding coupling in pre-trained language models.md

Files

201023 Rethinking embedding coupling in pre-trained language models.md

Latest commit

History

201023 Rethinking embedding coupling in pre-trained language models.md

File metadata and controls