LeTI: Learning to Generate from Textual Interactions (Xingyao Wang, Hao Peng, Reyhaneh Jabbarvand, Heng Ji)

피드백 혹은 reward를 0 or 1로 주는 것이 아니라 텍스트를 사용해서 줄 수 있는가 하는 연구. 여기서는 이런 문제에서 늘 좋은 도구가 되어주는 파이썬 인터프리터를 사용했네요. 테스트 케이스를 사용해 0 or 1 reward를 주고, 인터프리터의 에러 메시지를 텍스트에 붙이고 파인튜닝하는 방식으로 텍스트 피드백을 결합했네요. 파이썬 에러 메시지가 갈수록 친절해지고 있으니 그것도 도움이 되겠군요.

#prompt #alignment

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230517 LeTI.md

230517 LeTI.md

Files

230517 LeTI.md

Latest commit

History

230517 LeTI.md

File metadata and controls