Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 460 Bytes

210615 BEiT.md

File metadata and controls

7 lines (4 loc) · 460 Bytes

https://arxiv.org/abs/2106.08254

BEiT: BERT Pre-Training of Image Transformers (Hangbo Bao, Li Dong, Furu Wei)

bert처럼 vit 프리트레이닝하기. dall-e [[210223 Zero-Shot Text-to-Image Generation]] 처럼 discrete autoencoder로 이미지 토큰을 만든 다음 masked token modeling으로 학습합니다. 이미지넷 1k 데이터만으로 384x384에서 top-1 86.3%를 찍어버리는군요. (머리 폭발하는 이모지)

#vit #pretraining #bert