https://arxiv.org/abs/2106.08254
BEiT: BERT Pre-Training of Image Transformers (Hangbo Bao, Li Dong, Furu Wei)
bert처럼 vit 프리트레이닝하기. dall-e [[210223 Zero-Shot Text-to-Image Generation]] 처럼 discrete autoencoder로 이미지 토큰을 만든 다음 masked token modeling으로 학습합니다. 이미지넷 1k 데이터만으로 384x384에서 top-1 86.3%를 찍어버리는군요. (머리 폭발하는 이모지)
#vit #pretraining #bert