TrOCR Handwritten Vietnamese

Dự án này phát triển một mô hình nhận dạng chữ viết tay tiếng Việt, sử dụng TrOCR (Transformer-based Optical Character Recognition). Để cải thiện hiệu quả nhận dạng, mình đã tích hợp PhoBERT làm tokenizer.

Datasets

Datasets được lấy từ VNonDB và CinamonAI. https://huggingface.co/datasets/Daominhwysi/vietnamese_handwritten

Kết quả Huấn luyện

Mô hình	Số lượng tham số	CER ↓
TrOCR handwritten base	348M	-
TrOCR handwritten large	558M	-

CER (Character Error Rate): Tỷ lệ lỗi ký tự, giá trị càng thấp, mô hình càng chính xác.

Pre-trained Model

Liên hệ

Nếu có bất kỳ câu hỏi nào hoặc cần thêm thông tin, vui lòng liên hệ với tôi qua email tại daominhwysi@gmail.com hoặc qua Discord với tên người dùng daominhwysi.

Todo

https://arxiv.org/pdf/2105.07983
Tích hợp PhoBART để cải thiện phát hiện và sửa lỗi ngữ pháp.
Triển khai mô hình trocr-large-handwritten.
Sử dụng Dataset từ 5k ảnh chữ viết tay để huấn luyện thêm.

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
README.md		README.md
model.ipynb		model.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TrOCR Handwritten Vietnamese

Datasets

Kết quả Huấn luyện

Pre-trained Model

Liên hệ

Todo

About

Releases

Packages

Languages

daominhwysi/TrOCR-Vietnamese

Folders and files

Latest commit

History

Repository files navigation

TrOCR Handwritten Vietnamese

Datasets

Kết quả Huấn luyện

Pre-trained Model

Liên hệ

Todo

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages