ml-papers/papers/2021/210510 Visual Grounding with Transformers.md at main · rosinality/ml-papers · GitHub

https://arxiv.org/pdf/2105.04281.pdf

Visual Grounding with Transformers (Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang)

트랜스포머로 visual grounding 풀기. 논문을 보지 않으셔도 대략 어떤 형태일지 감이 오실 듯 싶네요. (그리고 아마 예상과 거의 비슷할 듯 합니다.) vision-text mixing을 푼 방법이 참고할만 하네요.

#visual_grounding