Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 513 Bytes

230624 Beyond Scale.md

File metadata and controls

7 lines (4 loc) · 513 Bytes

https://arxiv.org/abs/2306.13840

Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data (Alycia Lee, Brando Miranda, Sanmi Koyejo)

fisher information을 사용해 코퍼스의 diversity를 측정하는 방법이네요. 결과가 직관적이기는 한데 이렇게 측정된 diversity가 downstream task에 대해 어떻게 영향을 미칠지, 이 메트릭을 어느 정도 신뢰할 수 있을지가 궁금하긴 하네요.

#llm #dataset