https://arxiv.org/abs/2012.12352
Seeing past words: Testing the cross-modal capabilities of pretrained V&L models (Letitia Parcalabescu, Albert Gatt, Anette Frank, Iacer Calixto)
vision-language 모델이 잘 안 된다는 보고 + 1. 데이터셋 bias에 취약하고 파인튜닝시에 catastrophic forgetting이 일어나는 것 같다고.
#vision-language