word tokenization for thai language
Use the package manager nodejs to install thai-cut-slim.
npm i -s thai-cut-slim
const thaiCut = require('thai-cut-slim')
thaiCut.cut('ทดสอบระบบตัดคำ') # returns ['ทดสอบ','ระบบ','ตัด','คำ']
const thaiCut = require('thai-cut-slim')
thaiCut.addon(['โห', 'อิอิ'])
thaiCut.cut('ทดสอบเพิ่มคำที่ไม่มีในดิกชันนารี่ เช่น โห อิอิ') # returns [ 'ทดสอบ', 'เพิ่ม', 'คำ', 'ที่', 'ไม่มี', 'ใน', 'ดิกชันนารี', 'เช่น', 'โห', 'อิอิ' ]
Pull requests are welcome. For major changes, please open an issue first to discuss what you would like to change.
Please make sure to update tests as appropriate.