https://arxiv.org/abs/2306.13840
Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data (Alycia Lee, Brando Miranda, Sanmi Koyejo)
fisher information을 사용해 코퍼스의 diversity를 측정하는 방법이네요. 결과가 직관적이기는 한데 이렇게 측정된 diversity가 downstream task에 대해 어떻게 영향을 미칠지, 이 메트릭을 어느 정도 신뢰할 수 있을지가 궁금하긴 하네요.
#llm #dataset