https://arxiv.org/abs/2109.01078
Skim-Attention: Learning to Focus via Document Layout (Laura Nguyen, Thomas Scialom, Jacopo Staiano, Benjamin Piwowarski)
문서의 레이아웃 정보, 즉 토큰의 좌표 정보를 미리 인코더에 집어넣어서 attention mask를 만들고 이걸 사용해서 sparse attention을 만든다...이런 아이디어네요. 일반적인 layoutlm과 많이 비슷하지만 목표가 다릅니다. 이걸 보니 unsupervised layout analysis가 가능하지 않을까 하는 생가도 드네요.
#layout