Aligning Large Language Models through Synthetic Feedback (Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo)

더 큰 모델이 생성한 응답이 작은 모델이 생성한 응답보다 더 나을 것이다와 같은 가정을 바탕으로 synthetic한 comparison 데이터를 구축하고, 이 데이터로 reward model을 학습. user/bot 역할을 맡은 두 llm과 reward model을 사용해 synthetic하게 dialog 데이터를 만들어 학습, 그리고 이 sft와 rm 모델을 기반으로 ppo. 흥미롭네요.

#llm #alignment

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230523 Aligning Large Language Models through Synthetic Feedback.md

230523 Aligning Large Language Models through Synthetic Feedback.md

Files

230523 Aligning Large Language Models through Synthetic Feedback.md

Latest commit

History

230523 Aligning Large Language Models through Synthetic Feedback.md

File metadata and controls