Readme

数据来源

THUNews的一个子集，从10类新闻中随机抽取了20万条新闻标题，每类各2万条。按照18：1：1划分训练、验证、测试集。

Performance

Model	Test Acc
Naive Bayes	90.93%
fastText (3-gram)	92.54%
TextCNN	91.48%
DPCNN	92.00%
BiLSTM	91.58%
BiLSTM with Attention	91.60%
TextRCNN	91.79%
BERT-wwm-ext (来源)	94.61%
RoBERTa-wwm-ext	94.89%

内存有限，GCN的测试仅取数据集的十分之一进行，即20000训练/验证集，1000测试集。

Model	Acc
Naive Bayes	85.60%
TextGCN	83.30%

Usage

在src文件夹下运行脚本。

bash test.sh

改变json文件中的load和num_epochs，可以选择是否加载已训练模型和训练的epoch数。

对于gcn，在text_gcn文件夹下运行

python train.py r8

进行训练和测试。

文件结构

data/ 各种数据

config/ 模型超参数

src/ 源代码

model/ 保存模型和日志

word2vec预训练词向量，生成的词表已经保存在data文件夹下。

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
config		config
data		data
src		src
text_gcn		text_gcn
.gitignore		.gitignore
LICENSE		LICENSE
readme.md		readme.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Readme

数据来源

Performance

Usage

文件结构

About

Releases

Packages

Contributors 2

Languages

License

zhanghx0905/capstone

Folders and files

Latest commit

History

Repository files navigation

Readme

数据来源

Performance

Usage

文件结构

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages