Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 622 Bytes

210524 StructuralLM.md

File metadata and controls

7 lines (4 loc) · 622 Bytes

https://arxiv.org/abs/2105.11210

StructuralLM: Structural Pre-training for Form Understanding (Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, Luo Si)

layoutlm이 간간히 계속 나오는 군요. layoutlm과 거의 비슷한데 성능에 꽤 향상이 있습니다. 요점은 word 단위가 아니라 cell 단위로 처리한다는 것인데 그 cell을 어떻게 추출하는 것인지는 나와있지 않네요. 보니까 tesseract ocr에서 단어들을 좀 더 큰 단위로 그룹화한 결과를 제공하는 것 같은데 그걸 쓰는 듯 합니다. 약간...흥미롭네요.

#layout #lm