Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 671 Bytes

230717 AlpaGasus.md

File metadata and controls

9 lines (5 loc) · 671 Bytes

https://t.co/byFO28kI17

AlpaGasus: Training A Better Alpaca with Fewer Data (Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin)

Alpaca 데이터셋을 ChatGPT로 필터링해서 높은 퀄리티의 샘플만 남겨 학습시켰더니 성능이 더 향상됐다는 결과. LIMA도 시사하는 사실이지만 instruction tuning은 최고 품질의 데이터만 사용하는 것이 더 나은 것 같다는 증거군요.

그나저나 데이터셋 구축도 필터링도 ChatGPT가 해준 셈이네요. ChatGPT가 오픈소스 LM들을 다 만들어주는 느낌...

#alignment