https://arxiv.org/abs/2007.01852
Language-agnostic BERT Sentence Embedding (Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, Wei Wang)
MLM과 Translational LM을 사용해 109개 언어에 대한 문장 임베딩 모형을 학습. bilingual 데이터셋 구축에 상당한 공이 들어갔을 듯. #pretraining #embedding #multilingual