https://arxiv.org/abs/2011.15124
Multimodal Pretraining Unmasked: Unifying the Vision and Language BERTs (Emanuele Bugliarello, Ryan Cotterell, Naoaki Okazaki, Desmond Elliott)
vision & language bert 모델들을 통합적인 프레임워크 하에서 비교. 모델들의 성능이 비슷비슷하다는 것, initialization에 따른 결과의 분산이 크다는 것, 임베딩 레이어를 어떻게 세팅하는가가 중요하다는 것을 발견.
#multimodal