https://arxiv.org/abs/2211.07636
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale (Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao)
이것도 벌써 한계 찍기 하고 있군요. beit 스타일의 masked image model에 clip embedding을 예측하는 방식으로 학습했군요. 모델 크기 1B에 데이터 규모 30M입니다.
COCO vs LVIS에서도 나오지만 vision에서 scaling 특성을 보려면 NLP처럼 과제의 난이도 상승과 다양화가 중요할 듯 싶네요.
#mlm #clip