PreSTU: Pre-Training for Scene-Text Understanding (Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, Radu Soricut)

흠 scene text understanding을 위한 pretraining (layoutlm) 인데 흥미롭네요. 이미지 패치 입력과 ocr 텍스트의 일부를 인코더 입력으로 주고 나머지 텍스트를 디코더에서 예측하는 방식입니다. scene text reading 능력과 함께 텍스트가 주어졌을 때 텍스트를 활용할 수 있도록 만든다는 아이디어군요. 파인튜닝시에는 ocr 텍스트를 입력으로 받습니다.

#layout

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220912 PreSTU.md

220912 PreSTU.md

Files

220912 PreSTU.md

Latest commit

History

220912 PreSTU.md

File metadata and controls