Skip to content

Vietnamese Optical Character Recognition with Pre-trained Models

Notifications You must be signed in to change notification settings

daominhwysi/TrOCR-Vietnamese

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

34 Commits
 
 
 
 

Repository files navigation

TrOCR Handwritten Vietnamese

Dự án này phát triển một mô hình nhận dạng chữ viết tay tiếng Việt, sử dụng TrOCR (Transformer-based Optical Character Recognition). Để cải thiện hiệu quả nhận dạng, mình đã tích hợp PhoBERT làm tokenizer.

Datasets

Datasets được lấy từ VNonDB và CinamonAI. https://huggingface.co/datasets/Daominhwysi/vietnamese_handwritten

Kết quả Huấn luyện

Mô hình Số lượng tham số CER ↓
TrOCR handwritten base 348M -
TrOCR handwritten large 558M -
  • CER (Character Error Rate): Tỷ lệ lỗi ký tự, giá trị càng thấp, mô hình càng chính xác.

Pre-trained Model

Liên hệ

Nếu có bất kỳ câu hỏi nào hoặc cần thêm thông tin, vui lòng liên hệ với tôi qua email tại daominhwysi@gmail.com hoặc qua Discord với tên người dùng daominhwysi.

Todo

  • https://arxiv.org/pdf/2105.07983
  • Tích hợp PhoBART để cải thiện phát hiện và sửa lỗi ngữ pháp.
  • Triển khai mô hình trocr-large-handwritten.
  • Sử dụng Dataset từ 5k ảnh chữ viết tay để huấn luyện thêm.

About

Vietnamese Optical Character Recognition with Pre-trained Models

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published