https://arxiv.org/abs/2305.13735
Aligning Large Language Models through Synthetic Feedback (Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo)
더 큰 모델이 생성한 응답이 작은 모델이 생성한 응답보다 더 나을 것이다와 같은 가정을 바탕으로 synthetic한 comparison 데이터를 구축하고, 이 데이터로 reward model을 학습. user/bot 역할을 맡은 두 llm과 reward model을 사용해 synthetic하게 dialog 데이터를 만들어 학습, 그리고 이 sft와 rm 모델을 기반으로 ppo. 흥미롭네요.
#llm #alignment