Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 623 Bytes

230526 MixCE.md

File metadata and controls

7 lines (4 loc) · 623 Bytes

https://arxiv.org/abs/2305.16958

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies (Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg)

forward KL의 mode coverage behavior가 생성 퀄리티에 해로울 수 있으니 reverse kl의 mode dropping behavior를 결합할 수 있다면 좀 더 낫지 않을까 하는 아이디어. 딱 gan이 유행하던 시기에 많이 하던 방식의 분석이긴 하네요. 여러모로 모델이 충분히 강력해지면 이 문제는 해소되는 경향이 크지 않은가 싶긴 한데요.

#lm