Scaling Laws for Multilingual Neural Machine Translation (Patrick Fernandes, Behrooz Ghorbani, Xavier Garcia, Markus Freitag, Orhan Firat)

scaling law 논문은 많이 나왔지만 multitask나 multilingual로 가면 좀 흥미로워지네요. NMT에서 학습시 각 언어의 가중치 비율과 scaling이 무관하게 움직인다는 것, 즉 모델이 커지면 가중치와는 관계 없이 일정하게 향상된다는 것, 모델 크기와는 관계 없이 각 언어에 사용되는 실질 파라미터는 가중치에 의해 결정된다는 것, 추가로 EN -> XX 번역의 경우 타겟 언어의 유사도와 성능은 관계가 없으며 시너지는 XX -> EN의 형태로 multilingual 인코딩을 할 때 발생한다는 것을 보였네요. 이쪽 결과는 디코더가 아니라 인코더에서 공유가 발생한다는 이전 결과들과 합치하는 것 같습니다.

결과적으로 모델 크기와 가중치에 따라 각 언어에 대해 달성할 수 있는 성능을 예측하는 커브를 그릴 수 있었네요.

#multilingual #nmt #scaling

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230219 Scaling Laws for Multilingual Neural Machine Translation.md

230219 Scaling Laws for Multilingual Neural Machine Translation.md

Files

230219 Scaling Laws for Multilingual Neural Machine Translation.md

Latest commit

History

230219 Scaling Laws for Multilingual Neural Machine Translation.md

File metadata and controls