Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 637 Bytes

220912 PreSTU.md

File metadata and controls

7 lines (4 loc) · 637 Bytes

https://arxiv.org/abs/2209.05534

PreSTU: Pre-Training for Scene-Text Understanding (Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, Radu Soricut)

흠 scene text understanding을 위한 pretraining (layoutlm) 인데 흥미롭네요. 이미지 패치 입력과 ocr 텍스트의 일부를 인코더 입력으로 주고 나머지 텍스트를 디코더에서 예측하는 방식입니다. scene text reading 능력과 함께 텍스트가 주어졌을 때 텍스트를 활용할 수 있도록 만든다는 아이디어군요. 파인튜닝시에는 ocr 텍스트를 입력으로 받습니다.

#layout