Bring Your Own Data! Self-Supervised Evaluation for Large Language Models (Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein)

데이터셋 구축을 피하고 llm 평가하기. 간단히 요약하면 텍스트 시퀀스에 특정한 perturbation을 주었을 때 모델의 perpelxity 등의 변화를 측정하는 방식입니다. 사실 데이터셋 구축이라는 문제를 perturbation을 설계하는 문제로 바꿨다는 느낌이죠.

#llm #evaluation

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230623 Bring Your Own Data! Self-Supervised Evaluation for Large Language Models.md

230623 Bring Your Own Data! Self-Supervised Evaluation for Large Language Models.md

Files

230623 Bring Your Own Data! Self-Supervised Evaluation for Large Language Models.md

Latest commit

History

230623 Bring Your Own Data! Self-Supervised Evaluation for Large Language Models.md

File metadata and controls