Skip to content

Latest commit

 

History

History
11 lines (6 loc) · 822 Bytes

230706 Style Over Substance.md

File metadata and controls

11 lines (6 loc) · 822 Bytes

https://arxiv.org/abs/2307.03025

Style Over Substance: Evaluation Biases for Large Language Models (Minghao Wu, Alham Fikri Aji)

llm 평가에 슬슬 크라우드워커를 쓰는 경우가 생기고 있는데, 사람에게 평가를 시키면 사실 관계 같은 것보다는 스타일에 영향을 더 받아서 GPT-4만 못할 수 있다는 결과. 사실 관계 문제 이상으로 elo rating의 차이를 보면 크라우드워커의 평가가 썩 좋지 않았던 것으로 보이기도 합니다.

이건 평가의 문제이긴 하지만, OpenAI나 Anthropic이 괜히 데이터 구축에 엄청난 공을 들인 것이 아니겠죠.

사실 전반적으로 ML 논문에 사람의 평가 결과를 싣는 경우가 꽤 있는데 그 과정에 문제가 많다는 이야기는 계속 있었죠.

#llm #evaluation