Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 389 Bytes

210510 Visual Grounding with Transformers.md

File metadata and controls

7 lines (4 loc) · 389 Bytes

https://arxiv.org/pdf/2105.04281.pdf

Visual Grounding with Transformers (Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang)

트랜스포머로 visual grounding 풀기. 논문을 보지 않으셔도 대략 어떤 형태일지 감이 오실 듯 싶네요. (그리고 아마 예상과 거의 비슷할 듯 합니다.) vision-text mixing을 푼 방법이 참고할만 하네요.

#visual_grounding