https://arxiv.org/abs/2201.02647
Data-Efficient Information Extraction from Form-Like Documents (Beliz Gunel, Navneet Potti, Sandeep Tata, James B. Wendt, Marc Najork, Jing Xie)
OCR 업계에 아주 중요한 결과가 나왔네요. 모르고 있었는데 구글에 Glean (https://research.google/pubs/pub50092/) 이라는 스키마와 이미지를 받아 정보 추출을 수행하는 시스템이 있었는데 이 시스템을 기반으로 transfer learning을 사용해 필요 학습 데이터 수를 줄인(~50) 결과입니다. OCR 업계에서 다들 구상하고 있는 것이 수렴하고 있네요.
#information_extraction #ocr