BEiT: BERT Pre-Training of Image Transformers (Hangbo Bao, Li Dong, Furu Wei)

bert처럼 vit 프리트레이닝하기. dall-e [[210223 Zero-Shot Text-to-Image Generation]] 처럼 discrete autoencoder로 이미지 토큰을 만든 다음 masked token modeling으로 학습합니다. 이미지넷 1k 데이터만으로 384x384에서 top-1 86.3%를 찍어버리는군요. (머리 폭발하는 이모지)

#vit #pretraining #bert

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210615 BEiT.md

210615 BEiT.md

Files

210615 BEiT.md

Latest commit

History

210615 BEiT.md

File metadata and controls