https://arxiv.org/abs/2107.06499

Deduplicating Training Data Makes Language Models Better (Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, Nicholas Carlini)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210714 Deduplicating Training Data Makes Language Models Better.md

210714 Deduplicating Training Data Makes Language Models Better.md

Files

210714 Deduplicating Training Data Makes Language Models Better.md

Latest commit

History

210714 Deduplicating Training Data Makes Language Models Better.md

File metadata and controls