Learning to Generate Better Than Your LLM (Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra Misra, Wen Sun)

guide lm이라는 모델을 하나 따로 놓고 prompt에 대해 guide lm이 추가로 rollin을 생성하게 한 다음 이 rollin에 대해 policy lm이 rollout을 만드는 식으로 돌아가는 rl 기반 튜닝 방법이군요. guide lm이 rollin을 생성하게 하는 것으로 더 나은 exploration을 가능하게 한다는 것이 요점 같긴 하네요.

#llm #alignment

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230620 Learning to Generate Better Than Your LLM.md

230620 Learning to Generate Better Than Your LLM.md

Files

230620 Learning to Generate Better Than Your LLM.md

Latest commit

History

230620 Learning to Generate Better Than Your LLM.md

File metadata and controls