PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback (Bo Shen, Jiaxin Zhang, Taihong Chen, Daoguang Zan, Bing Geng, An Fu, Muhan Zeng, Ailun Yu, Jichuan Ji, Jingyang Zhao, Yuenan Guo, Qianxiang Wang)

코드 모델에 유닛 테스트로 RL을 하는 접근의 결실이 나왔군요. (정확히는 RRHF 기반이긴 합니다.) Evol Instruct 기반으로 성능을 높인 다음에 유닛 테스트 피드백을 기반으로 Ranking 학습을 하는 방식이네요. HumanEval이 쭉쭉 오르고 있습니다. (61.64 까지.)

#alignment

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230727 PanGu-Coder2.md

230727 PanGu-Coder2.md

Files

230727 PanGu-Coder2.md

Latest commit

History

230727 PanGu-Coder2.md

File metadata and controls