Koalpaca-Translation-KR2EN

이 프로젝트는, 맥락을 기억하지 않습니다. 한글 문장이 들어오면, 그대로 영어 문장을 출력하는 문장 번역기입니다.

성능을 향상시킬수 있는 더 좋은 아이디어 있으면 이슈 부탁드리겠습니다. !

테스트 된 환경

Ubuntu 20.04
pytorch 2.1.1

V100 기준 GPU VRAM 사용량 : 12GB

설치 및 실행

필요한 라이브러리 설치

git clone https://github.com/gyupro/Koalpaca-Translation-KR2EN.git
cd Koalpaca-Translation-KR2EN
pip install -r requirements.txt

실행

python serving.py

위의 파이썬 커맨드 실행 후, http://localhost:7860으로 들어가시면 gradio 채팅 앱이 보일껍니다. 입력문장에 한글을 입력하시고, 엔터를 누르시면 번역된 결과를 보실수 있습니다.

필요한 모델 & 토크나이저는 자동으로 다운됩니다.

데이터셋

데이터셋은 AIHUB의 구어체 번역 데이터셋을 사용했습니다. AIHUB

Train 폴더에 있는 데이터만 사용했으며, 데이터셋을 전처리한 코드는 여기 에서 보시면 됩니다.

KO_TO_EN source 한국어 target 영어 120만 문장 쌍
EN_TO_KO source 영어 target 한국어 120만 문장 쌍

데이터셋 예제

여기에서 확인해볼수 있습니다.

학습

학습은 위의 KO_TO_EN과 EN_TO_KO를 모두 source KO target EN으로 학습시켰으며, Koalpaca의 run_tensor_parellel.py파일을 사용했습니다. 사용된 모델은 polyglot 5.8B입니다.

장점

학습된 어체가 구어체이다보니, 구어체를 잘 인식하고 상황에 맞게 잘 번역합니다.

단점

학습된 문장 자체가 짧은 단문이기 때문에, 긴문장 번역에 취약점을 보입니다. 또한 구어체 번역이기에, 전문 서적, 전문번역 성능은 떨어집니다.

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
make_dataset.ipynb		make_dataset.ipynb
requirements.txt		requirements.txt
serving.py		serving.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Koalpaca-Translation-KR2EN

테스트 된 환경

설치 및 실행

데이터셋

데이터셋 예제

학습

장점

단점

About

Packages

Languages

License

gyupro/Koalpaca-Translation-KR2EN

Folders and files

Latest commit

History

Repository files navigation

Koalpaca-Translation-KR2EN

테스트 된 환경

설치 및 실행

데이터셋

데이터셋 예제

학습

장점

단점

About

Topics

Resources

License

Stars

Watchers

Forks

Packages 0

Languages

Packages