sentence piece tokenizer support for TokenizerInfo #120

zanderjiang · 2024-12-06T05:10:00Z

No description provided.

python/xgrammar/tokenizer_info.py

… and input handling, new test cases

Ubospica

Looks great!

Could you leave a benchmark result in comments of this pr:

The cpu you are using
The model used (three kinds: hf, tiktoken, sp)
TokenizerInfo Build time

We can merge it after addressing these issues.

python/xgrammar/tokenizer_info.py

zanderjiang · 2024-12-18T21:38:52Z

CPU: Intel(R) Xeon(R) Platinum 8259CL CPU @ 2.50GHz

Build-time tests:
"meta-llama/Meta-Llama-3-8B-Instruct" (hf)
build_time: 0.5978555679321289

"microsoft/Phi-3.5-mini-instruct" (hf)
build_time: 0.10898065567016602

"Qwen/Qwen-7B-Chat" (tiktoken)
build_time: 0.08476638793945312

"THUDM/glm-4-9b-chat" (tiktoken)
build_time: 0.11713862419128418

"THUDM/chatglm3-6b" (sp)
build_time: 0.1258544921875

Ubospica

Looks great. Thanks @zanderjiang!

zanderjiang and others added 4 commits December 5, 2024 00:29

sentence piece tokenizer support for TokenizerInfo

b1d60f9

update testcase for tokenizer_info

270ef77

Merge branch 'mlc-ai:main' into main

6d0d1e9

updated sentence piece handling in TokenizerInfo according to comments

38bb083

Ubospica reviewed Dec 6, 2024

View reviewed changes

python/xgrammar/tokenizer_info.py Outdated Show resolved Hide resolved

python/xgrammar/tokenizer_info.py Outdated Show resolved Hide resolved

zanderjiang added 4 commits December 7, 2024 14:37

Merge branch 'mlc-ai:main' into main

58145f1

format all encoded_vocab to be the same for better build efficiency

ebe19d2

Merge branch 'mlc-ai:main' into main

2123b9d

modfy special token logic in c++ backend, update vocab_size detection…

b61568e

… and input handling, new test cases

Ubospica reviewed Dec 18, 2024

View reviewed changes

python/xgrammar/tokenizer_info.py Outdated Show resolved Hide resolved

var change

783858c

Ubospica approved these changes Dec 22, 2024

View reviewed changes

Ubospica merged commit 8bc7b1d into mlc-ai:main Dec 22, 2024
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

sentence piece tokenizer support for TokenizerInfo #120

sentence piece tokenizer support for TokenizerInfo #120

zanderjiang commented Dec 6, 2024

Ubospica left a comment •

edited

Loading

zanderjiang commented Dec 18, 2024

Ubospica left a comment

sentence piece tokenizer support for TokenizerInfo #120

sentence piece tokenizer support for TokenizerInfo #120

Conversation

zanderjiang commented Dec 6, 2024

Ubospica left a comment • edited Loading

Choose a reason for hiding this comment

zanderjiang commented Dec 18, 2024

Ubospica left a comment

Choose a reason for hiding this comment

Ubospica left a comment •

edited

Loading