Skip to content

Commit

Permalink
Merge pull request #27 from googlefonts/tokenization
Browse files Browse the repository at this point in the history
Improve tokenization
  • Loading branch information
m4rc1e authored Mar 3, 2023
2 parents c34195b + 0f454c0 commit b4ecbe1
Show file tree
Hide file tree
Showing 7 changed files with 42,172 additions and 91,152 deletions.
11 changes: 11 additions & 0 deletions scripts/tokenise.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
import sys
from icu import Locale, BreakIterator

locale = sys.argv[1]
bi = BreakIterator.createWordInstance(Locale(locale))
for line in sys.stdin:
bi.setText(line)
start = bi.first()
for end in bi:
print(line[start:end])
start = end
3 changes: 1 addition & 2 deletions src/diffenator2/data/wordlists/Arabic.txt
Original file line number Diff line number Diff line change
Expand Up @@ -25436,7 +25436,6 @@
غِنىً،
غْرِيبْ
غیفان
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
فآثرت
فآخر
فآخى
Expand Down Expand Up @@ -44565,4 +44564,4 @@
﴿لا
﴿لَا
﴿وَمَا
﴿يَا
﴿يَا
3 changes: 1 addition & 2 deletions src/diffenator2/data/wordlists/Gujarati.txt
Original file line number Diff line number Diff line change
Expand Up @@ -93842,7 +93842,6 @@
હુરન
હુરબાઇના
હુરિયાહ
હુર્‍ર્‍ર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રેર્રે
હુલડ્રીચ
હુલમણા
હુલરીયા
Expand Down Expand Up @@ -94933,4 +94932,4 @@
‍વિકેન્દ્રીત
‍વિવિધ
‍શીખતા
‍‍‍‍‍‍‍યુનાઇટેડ
‍‍‍‍‍‍‍યુનાઇટેડ
Loading

0 comments on commit b4ecbe1

Please sign in to comment.