MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies (Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg)

forward KL의 mode coverage behavior가 생성 퀄리티에 해로울 수 있으니 reverse kl의 mode dropping behavior를 결합할 수 있다면 좀 더 낫지 않을까 하는 아이디어. 딱 gan이 유행하던 시기에 많이 하던 방식의 분석이긴 하네요. 여러모로 모델이 충분히 강력해지면 이 문제는 해소되는 경향이 크지 않은가 싶긴 한데요.

#lm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230526 MixCE.md

230526 MixCE.md

Files

230526 MixCE.md

Latest commit

History

230526 MixCE.md

File metadata and controls