怎么训练模型 #10

huan415 · 2022-10-20T10:12:20Z

Word2Vec.trainJavaModel("data/train.txt", "data/test.model");

你好， data/train.txt 和 data/test.model 能给个样例吗。

例如：我有10句话，分词之后，在train.txt是什么样子的。
把相近的词空格分开，放到同一行？还是10句话，一句一行，词用空格

jsksxs360 · 2022-10-21T01:23:42Z

你好，data/test.model 是训练好之后保存的模型路径。data/train.txt 是分好词的训练语料，一行是一个文本，每个文本都是用空格分隔的词语，例如：

doc1_word1 doc1_word2 doc1_word3...
doc2_word1 doc2_word2 doc2_word3...
...

jsksxs360 · 2022-10-21T01:30:03Z

我更建议直接使用 Google 官方的代码来训练模型，是目前公认的准确率最高的 word2vec 版本，与使用 Java 版训练得到的模型格式是完全相同的，后面也可以使用本库加载。可以参见：

Provide feedback