https://arxiv.org/abs/2010.12821
Rethinking embedding coupling in pre-trained language models (Hyung Won Chung, Thibault Févry, Henry Tsai, Melvin Johnson, Sebastian Ruder)
요즘 lm에선 정석처럼 사용되는 입력-출력 임베딩 weight tying을 풀어버리고 입력 임베딩 크기를 줄여버리기. 오히려 묶은 것보다 성능이 낫다고. wikitext-103 정도 스케일의 과제에서 강력한 방법이었으니 bert 프리트레이닝 스케일에서는 상황이 다른 것이 자연스러운지도.
#language_model #regularization