Bridge-Tower: Building Bridges Between Encoders in Vision-Language Representation Learning (Xiao Xu, Chenfei Wu, Shachar Rosenman, Vasudev Lal, Nan Duan)

vision-language 모델이 쏟아지고 있네요. 이쪽은 vision encoder와 language encoder 최상단의 feature를 가져와서 vision-language encoder에 넣는 게 아니라 더 아래 단계의 multi-level feature를 가져와서 encoder에 입력하자는 아이디어입니다. Coarse-to-Fine의 FIBER와 비슷한 세팅이라고 할 수 있겠네요. 디자인에 참고해볼만합니다.

#vision-language

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220617 Bridge-Tower.md

220617 Bridge-Tower.md

Files

220617 Bridge-Tower.md

Latest commit

History

220617 Bridge-Tower.md

File metadata and controls