Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 608 Bytes

220617 Bridge-Tower.md

File metadata and controls

7 lines (4 loc) · 608 Bytes

https://arxiv.org/abs/2206.08657

Bridge-Tower: Building Bridges Between Encoders in Vision-Language Representation Learning (Xiao Xu, Chenfei Wu, Shachar Rosenman, Vasudev Lal, Nan Duan)

vision-language 모델이 쏟아지고 있네요. 이쪽은 vision encoder와 language encoder 최상단의 feature를 가져와서 vision-language encoder에 넣는 게 아니라 더 아래 단계의 multi-level feature를 가져와서 encoder에 입력하자는 아이디어입니다. Coarse-to-Fine의 FIBER와 비슷한 세팅이라고 할 수 있겠네요. 디자인에 참고해볼만합니다.

#vision-language