Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 533 Bytes

230317 On the De-duplication of LAION-2B.md

File metadata and controls

7 lines (4 loc) · 533 Bytes

https://arxiv.org/abs/2303.12733

On the De-duplication of LAION-2B (Ryan Webster, Julien Rabin, Loic Simon, Frederic Jurie)

LAION-2B에 대한 deduplication. 웹 크롤링 데이터들을 프리트레이닝에 쓰기 시작하면서 중요해진 퀄리티 컨트롤, 그 중에서도 중요한 것이 deduplication이라고 할 수 있을 것 같네요. CLIP으로 dedup을 했더니 700M이 duplicate였다는 결과입니다. 사실 내부적으로는 다들 dedup을 해서 쓰고 있었을 것 같긴 하네요.

#dataset #clip