https://arxiv.org/abs/2306.11816
Learning to Generate Better Than Your LLM (Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra Misra, Wen Sun)
guide lm이라는 모델을 하나 따로 놓고 prompt에 대해 guide lm이 추가로 rollin을 생성하게 한 다음 이 rollin에 대해 policy lm이 rollout을 만드는 식으로 돌아가는 rl 기반 튜닝 방법이군요. guide lm이 rollin을 생성하게 하는 것으로 더 나은 exploration을 가능하게 한다는 것이 요점 같긴 하네요.
#llm #alignment