Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 468 Bytes

201130 Multimodal Pretraining Unmasked.md

File metadata and controls

7 lines (4 loc) · 468 Bytes

https://arxiv.org/abs/2011.15124

Multimodal Pretraining Unmasked: Unifying the Vision and Language BERTs (Emanuele Bugliarello, Ryan Cotterell, Naoaki Okazaki, Desmond Elliott)

vision & language bert 모델들을 통합적인 프레임워크 하에서 비교. 모델들의 성능이 비슷비슷하다는 것, initialization에 따른 결과의 분산이 크다는 것, 임베딩 레이어를 어떻게 세팅하는가가 중요하다는 것을 발견.

#multimodal