https://arxiv.org/abs/2305.10314
LeTI: Learning to Generate from Textual Interactions (Xingyao Wang, Hao Peng, Reyhaneh Jabbarvand, Heng Ji)
피드백 혹은 reward를 0 or 1로 주는 것이 아니라 텍스트를 사용해서 줄 수 있는가 하는 연구. 여기서는 이런 문제에서 늘 좋은 도구가 되어주는 파이썬 인터프리터를 사용했네요. 테스트 케이스를 사용해 0 or 1 reward를 주고, 인터프리터의 에러 메시지를 텍스트에 붙이고 파인튜닝하는 방식으로 텍스트 피드백을 결합했네요. 파이썬 에러 메시지가 갈수록 친절해지고 있으니 그것도 도움이 되겠군요.
#prompt #alignment