ml-papers/papers/2020/201130 Multimodal Pretraining Unmasked.md at main · rosinality/ml-papers · GitHub

https://arxiv.org/abs/2011.15124

Multimodal Pretraining Unmasked: Unifying the Vision and Language BERTs (Emanuele Bugliarello, Ryan Cotterell, Naoaki Okazaki, Desmond Elliott)

vision & language bert 모델들을 통합적인 프레임워크 하에서 비교. 모델들의 성능이 비슷비슷하다는 것, initialization에 따른 결과의 분산이 크다는 것, 임베딩 레이어를 어떻게 세팅하는가가 중요하다는 것을 발견.

#multimodal