https://arxiv.org/abs/2302.02676

Chain of Hindsight Aligns Language Models with Feedback (Hao Liu, Carmelo Sferrazza, Pieter Abbeel)

rl 없이 align하기. 모델 생성 결과와 사람의 평가/랭킹 결과에 대해 이를 합친 시퀀스를 만든 다음 (A 문장이 B보다 낫다, B는 C와 비슷하다 식으로 이어붙입니다.) 가장 평가가 좋은 시퀀스를 예측하게 만드네요. 뭔가 오답노트 만들기 같은데 이게 왜 되는 거지? 싶은 느낌이 있습니다.

#llm #alignment

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230206 Chain of Hindsight Aligns Language Models with Feedback.md

230206 Chain of Hindsight Aligns Language Models with Feedback.md

Files

230206 Chain of Hindsight Aligns Language Models with Feedback.md

Latest commit

History

230206 Chain of Hindsight Aligns Language Models with Feedback.md

File metadata and controls