https://arxiv.org/abs/2301.13688
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning (Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts)
instruction tuning을 tuning한 과정에 대한 리포트군요. instructgpt 덕분에 이제 많이 친근해진(?) rlhf가 아니라 다양한 nlp task에 대해서 학습시키는 형태의 작업입니다.
#instruct