Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 617 Bytes

230523 Aligning Large Language Models through Synthetic Feedback.md

File metadata and controls

7 lines (4 loc) · 617 Bytes

https://arxiv.org/abs/2305.13735

Aligning Large Language Models through Synthetic Feedback (Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo)

더 큰 모델이 생성한 응답이 작은 모델이 생성한 응답보다 더 나을 것이다와 같은 가정을 바탕으로 synthetic한 comparison 데이터를 구축하고, 이 데이터로 reward model을 학습. user/bot 역할을 맡은 두 llm과 reward model을 사용해 synthetic하게 dialog 데이터를 만들어 학습, 그리고 이 sft와 rm 모델을 기반으로 ppo. 흥미롭네요.

#llm #alignment