https://arxiv.org/abs/2206.08657
Bridge-Tower: Building Bridges Between Encoders in Vision-Language Representation Learning (Xiao Xu, Chenfei Wu, Shachar Rosenman, Vasudev Lal, Nan Duan)
vision-language 모델이 쏟아지고 있네요. 이쪽은 vision encoder와 language encoder 최상단의 feature를 가져와서 vision-language encoder에 넣는 게 아니라 더 아래 단계의 multi-level feature를 가져와서 encoder에 입력하자는 아이디어입니다. Coarse-to-Fine의 FIBER와 비슷한 세팅이라고 할 수 있겠네요. 디자인에 참고해볼만합니다.
#vision-language