https://arxiv.org/abs/2012.13454
Why Neural Machine Translation Prefers Empty Outputs (Xing Shi, Yijun Xiao, Kevin Knight)
데이터셋에는 공백 문장이 없는데도 왜 빔 크기를 늘리면 공백 문장의 확률이 높아지는가? label smoothing이 문장의 확률을 낮춘다는 것과 어떤 길이의 문장이건 같은 eos 토큰으로 끝난다는 것이 공백 문장의 확률을 높인다는 분석.
#nmt #hallucination