https://arxiv.org/abs/2307.03025

Style Over Substance: Evaluation Biases for Large Language Models (Minghao Wu, Alham Fikri Aji)

llm 평가에 슬슬 크라우드워커를 쓰는 경우가 생기고 있는데, 사람에게 평가를 시키면 사실 관계 같은 것보다는 스타일에 영향을 더 받아서 GPT-4만 못할 수 있다는 결과. 사실 관계 문제 이상으로 elo rating의 차이를 보면 크라우드워커의 평가가 썩 좋지 않았던 것으로 보이기도 합니다.

이건 평가의 문제이긴 하지만, OpenAI나 Anthropic이 괜히 데이터 구축에 엄청난 공을 들인 것이 아니겠죠.

사실 전반적으로 ML 논문에 사람의 평가 결과를 싣는 경우가 꽤 있는데 그 과정에 문제가 많다는 이야기는 계속 있었죠.

#llm #evaluation

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230706 Style Over Substance.md

230706 Style Over Substance.md

Files

230706 Style Over Substance.md

Latest commit

History

230706 Style Over Substance.md

File metadata and controls