https://arxiv.org/abs/2307.14936
PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback (Bo Shen, Jiaxin Zhang, Taihong Chen, Daoguang Zan, Bing Geng, An Fu, Muhan Zeng, Ailun Yu, Jichuan Ji, Jingyang Zhao, Yuenan Guo, Qianxiang Wang)
코드 모델에 유닛 테스트로 RL을 하는 접근의 결실이 나왔군요. (정확히는 RRHF 기반이긴 합니다.) Evol Instruct 기반으로 성능을 높인 다음에 유닛 테스트 피드백을 기반으로 Ranking 학습을 하는 방식이네요. HumanEval이 쭉쭉 오르고 있습니다. (61.64 까지.)
#alignment