https://arxiv.org/abs/2303.12733
On the De-duplication of LAION-2B (Ryan Webster, Julien Rabin, Loic Simon, Frederic Jurie)
LAION-2B에 대한 deduplication. 웹 크롤링 데이터들을 프리트레이닝에 쓰기 시작하면서 중요해진 퀄리티 컨트롤, 그 중에서도 중요한 것이 deduplication이라고 할 수 있을 것 같네요. CLIP으로 dedup을 했더니 700M이 duplicate였다는 결과입니다. 사실 내부적으로는 다들 dedup을 해서 쓰고 있었을 것 같긴 하네요.
#dataset #clip