https://arxiv.org/pdf/2105.04281.pdf
Visual Grounding with Transformers (Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang)
트랜스포머로 visual grounding 풀기. 논문을 보지 않으셔도 대략 어떤 형태일지 감이 오실 듯 싶네요. (그리고 아마 예상과 거의 비슷할 듯 합니다.) vision-text mixing을 푼 방법이 참고할만 하네요.
#visual_grounding