https://arxiv.org/abs/2306.01693

Fine-Grained Human Feedback Gives Better Rewards for Language Model Training (Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230602 Fine-Grained Human Feedback Gives Better Rewards for Language Model Training.md

230602 Fine-Grained Human Feedback Gives Better Rewards for Language Model Training.md

Files

230602 Fine-Grained Human Feedback Gives Better Rewards for Language Model Training.md

Latest commit

History

230602 Fine-Grained Human Feedback Gives Better Rewards for Language Model Training.md

File metadata and controls