https://arxiv.org/abs/2302.02676
Chain of Hindsight Aligns Language Models with Feedback (Hao Liu, Carmelo Sferrazza, Pieter Abbeel)
rl 없이 align하기. 모델 생성 결과와 사람의 평가/랭킹 결과에 대해 이를 합친 시퀀스를 만든 다음 (A 문장이 B보다 낫다, B는 C와 비슷하다 식으로 이어붙입니다.) 가장 평가가 좋은 시퀀스를 예측하게 만드네요. 뭔가 오답노트 만들기 같은데 이게 왜 되는 거지? 싶은 느낌이 있습니다.
#llm #alignment