https://arxiv.org/abs/2305.11206
LIMA: Less Is More for Alignment (Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy)
alignment는 모델에 능력을 추가하는 과정이 아니라 답변 스타일을 정해주는 과정이기 때문에 데이터가 많이 필요하지 않고, 답변 스타일을 잘 통일해서 큐레이션된 데이터를 만들면 충분할 수 있다는 제안이군요. 1000개 분량의 데이터셋을 구축해서 rlhf 없이 supervised finetuning으로 경쟁력 있는 결과를 냈습니다. adversarial prompt 등에 대해서는 좀 아쉽다고 하긴 하네요.
#alignment