English-Korean transliterator (영-한 음차 변환기)

이 프로젝트는 영어 단어를 한글 발음 표기로 변환하는 프로그램입니다. (e.g. transformer → 트랜스포머)

허깅페이스의 Text2Text Generation Task 의 사전학습 언어 모델을 사용하였습니다.

Fine-tuning 한 음차 변환 모델은 여기에서 확인하실 수 있습니다.

Use pre-trained model from Google-mT5 : Multilingual T5

Prerequisites

$ pip install -r requirements.txt

CUDA 버전에 맞는 torch 의 설치가 필요합니다.

# CUDA 11.3
$ pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

Usage

ver1. Train model

$ python3 transliteration.py --train
('>> total number of data:', 56699)
('>> number of train data:', 51029)
('>> number of test data:', 5670)
('> Preprocessing',)
('> Preprocessing',)
('> Train Model Start...',)
INFO:simpletransformers.t5.t5_model: Training started

ver2. Use pre-trained language model

$ python3 transliteration.py --test
('> Pretrained Model Start...',)
Generating outputs: 100%|██████████████████████████████████████| 1/1 [00:00<00:00, 10.93it/s]
Decoding outputs: 100%|██████████████████████████████████████| 4/4 [00:00<00:00,  6.20it/s]
machinelearning :       머신러닝
deeplearning    :       딥러닝
transformer     :       트랜스포머
attention       :       어텐션

$ python3 transliteration.py --decode
종료는 'q' 입니다.
>> transformer
('> Pretrained Model Start...',)
Generating outputs: 100%|██████████████████████████████████████| 1/1 [00:00<00:00, 10.81it/s]
Decoding outputs: 100%|██████████████████████████████████████| 1/1 [00:00<00:00,  1.47it/s]
트랜스포머
>> kakao
Generating outputs: 100%|██████████████████████████████████████| 1/1 [00:00<00:00, 9.71it/s]
Decoding outputs: 100%|██████████████████████████████████████| 1/1 [00:00<00:00,  5.78it/s]
카카오
>>

Run Gradio app

$ python transliteration.py --gradio
Running on local URL:  http://127.0.0.1:7860/

To create a public link, set `share=True` in `launch()`.

References

데이터셋은 muik의 transliteration 데이터를 사용하였습니다.
모델의 소스코드 부분은 grit-mind의 engkor_transliterator 를 참고하였습니다.

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
dataset		dataset
.gitignore		.gitignore
README.md		README.md
config.py		config.py
model.py		model.py
preprocess.py		preprocess.py
requirements.txt		requirements.txt
transliteration.py		transliteration.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

English-Korean transliterator (영-한 음차 변환기)

Prerequisites

Usage

ver1. Train model

ver2. Use pre-trained language model

Run Gradio app

References

About

Releases

Packages

Languages

eunsour/engtokor-transliterator

Folders and files

Latest commit

History

Repository files navigation

English-Korean transliterator (영-한 음차 변환기)

Prerequisites

Usage

ver1. Train model

ver2. Use pre-trained language model

Run Gradio app

References

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages