https://arxiv.org/abs/2306.13651
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models (Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein)
데이터셋 구축을 피하고 llm 평가하기. 간단히 요약하면 텍스트 시퀀스에 특정한 perturbation을 주었을 때 모델의 perpelxity 등의 변화를 측정하는 방식입니다. 사실 데이터셋 구축이라는 문제를 perturbation을 설계하는 문제로 바꿨다는 느낌이죠.
#llm #evaluation