在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新......
注: 🤗huggingface模型下载地址: 1. 清华大学开源镜像 2. 官方地址
- 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv |
PDF
- 2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv |
PDF
- 2021 | ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information | Zijun Sun, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
BERT-Base | base | Google Drive | Google Research | github | 通用 | |
BERT-wwm | base | Google Drive | Yiming Cui | github | 通用 | |
BERT-wwm-ext | base | Google Drive | Yiming Cui | github | 通用 | |
bert-base-民事 | base | 阿里云 | THUNLP | github | 司法 | |
bert-base-刑事 | base | 阿里云 | THUNLP | github | 司法 | |
BAAI-JDAI-BERT | base | 京东云 | JDAI | github | 电商客服对话 | |
FinBERT | base | Value Simplex | github | 金融科技领域 | ||
EduBERT | base | 好未来AI | 好未来AI | tal-tech | github | 教育领域 |
MC-BERT | base | Google Drive | Alibaba AI Research | github | 医学领域 | |
guwenbert-base | base | Ethan | github | 古文领域 | ||
guwenbert-large | large | Ethan | github | 古文领域 | ||
ChineseBERT | base | huggingface | ShannonAI | github | 通用 | |
ChineseBERT | large | huggingface | ShannonAI | github | 通用 | |
BERT-CCPoem | small | thunlp | THUNLP-AIPoet | github | 古典诗歌 |
备注:
wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask
ext表示在更多数据集下训练
- 2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv |
PDF
- 2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Albert_tiny | tiny | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_base_zh | base | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_large_zh | large | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_xlarge_zh | xlarge | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_base | base | Google Drive | Google Research | github | 通用 | |
Albert_large | large | Google Drive | Google Research | github | 通用 | |
Albert_xlarge | xlarge | Google Drive | Google Research | github | 通用 | |
Albert_xxlarge | xxlarge | Google Drive | Google Research | github | 通用 |
- 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
NEZHA-base | base | lonePatient | HUAWEI | github | 通用 | |
NEZHA-base-wwm | base | lonePatient | HUAWEI | github | 通用 | |
NEZHA-large | large | lonePatient | HUAWEI | github | 通用 | |
NEZHA-large-wwm | large | lonePatient | HUAWEI | github | 通用 | |
WoNEZHA |
base | 百度网盘-qgkq | ZhuiyiTechnology | github | 通用 |
- 2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
MacBERT-base | base | Yiming Cui | github | 通用 | ||
MacBERT-large | large | Yiming Cui | github | 通用 |
- 2020 | 提速不掉点:基于词颗粒度的中文WoBERT | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
WoBERT | base | 百度网盘-kim2 | ZhuiyiTechnology | github | 通用 | |
WoBERT-plus | base | 百度网盘-aedw | ZhuiyiTechnology | github | 通用 |
- 2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
XLNet-base | base | Google Drive | Yiming Cui | github | 通用 | |
XLNet-mid | middle | Google Drive | Yiming Cui | github | 通用 | |
XLNet_zh_Large | large | 百度网盘 | brightmart | github | 通用 |
- 2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ELECTRA-180g-large | large | Yiming Cui | github | 通用 | ||
ELECTRA-180g-small-ex | small | Yiming Cui | github | 通用 | ||
ELECTRA-180g-base | base | Yiming Cui | github | 通用 | ||
ELECTRA-180g-small | small | Yiming Cui | github | 通用 | ||
legal-ELECTRA-large | large | Yiming Cui | github | 司法领域 | ||
legal-ELECTRA-base | base | Yiming Cui | github | 司法领域 | ||
legal-ELECTRA-small | small | Yiming Cui | github | 司法领域 | ||
ELECTRA-tiny | tiny | CLUE | github | 通用 |
- 2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ZEN-Base | base | Sinovation Ventures AI Institute | github | 通用 |
-
2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv |
PDF
-
2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv |
PDF
-
2020 | ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding | Dongling Xiao, et al. | arXiv |
PDF
模型 | 版本 | PaddlePaddle | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ernie-1.0-base | base | link | PaddlePaddle | github | 通用 | |
ernie_1.0_skep_large | large | link | Baidu | github | 情感分析 | |
ernie-gram | base | link | Baidu | github | 通用 |
备注:
PaddlePaddle转TensorFlow可参考: tensorflow_ernie
PaddlePaddle转PyTorch可参考: ERNIE-Pytorch
-
2021 | RoFormer: Enhanced Transformer with Rotary Position Embedding | Jianlin Su, et al. | arXiv |
PDF
-
2021 | Transformer升级之路:2、博采众长的旋转式位置编码 | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
roformer | base(L12) | 百度网盘-xy9x | ZhuiyiTechnology | github | 通用 | |
roformer | small(L6) | 百度网盘-gy97 | ZhuiyiTechnology | github | 通用 | |
roformer-char | base(L12) | 百度网盘-bt94 | ZhuiyiTechnology | github | 通用 |
- 2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
StructBERT | large(L24) | 阿里云 | Alibaba | github | 通用 |
- 2021 | Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models | Yuxuan Lai, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
LatticeBERT | tiny(L4) | 阿里云 | Alibaba | github | 通用 | |
LatticeBERT | small(L6) | 阿里云 | Alibaba | github | 通用 | |
LatticeBERT | base(L12) | 阿里云 | Alibaba | github | 通用 |
-
2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv |
PDF
-
2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
GPT2 | 30亿语料 | Caspar ZHANG | gpt2-ml | 通用 | ||
GPT2 | 15亿语料 | Caspar ZHANG | gpt2-ml | 通用 | ||
CDial-GPTLCCC-base | base | huggingface | thu-coai | CDial-GPT | 中文对话 | |
CDial-GPT2LCCC-base | base | huggingface | thu-coai | CDial-GPT | 中文对话 | |
CDial-GPTLCCC-large | large | huggingface | thu-coai | CDial-GPT | 中文对话 | |
GPT2-dialogue | base | yangjianxin1 | GPT2-chitchat | 闲聊对话 | ||
GPT2-mmi | base | yangjianxin1 | GPT2-chitchat | 闲聊对话 | ||
GPT2-散文模型 | base | Zeyao Du | GPT2-Chinese | 散文 | ||
GPT2-诗词模型 | base | Zeyao Du | GPT2-Chinese | 诗词 | ||
GPT2-对联模型 | base | Zeyao Du | GPT2-Chinese | 对联 | ||
roformer-gpt | base(L12) | 百度网盘-2nnn | ZhuiyiTechnology | github | 通用 |
-
2019 | Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context | Zihang Dai, et al. | arXiv |
PDF
-
2020 | Language Models are Few-Shot Learners | Tom B. Brown, et al. | arXiv |
PDF
模型 | 版本 | 介绍 | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Chinese-Transformer-XL | 29亿参数(GPT-3) | 项目首页 | 模型下载 | THUDM | github | 通用 |
-
2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv |
PDF
-
2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
NEZHA-Gen | base | HUAWEI | github | 通用 | ||
NEZHA-Gen | base | HUAWEI | github | 诗歌 |
- 2020 | CPM: A Large-scale Generative Chinese Pre-trained Language Model | Zhengyan Zhang, et al. | arXiv |
PDF
模型 | 版本 | 资源 | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
CPM | 26亿参数 | 项目首页 | 模型下载 | Tsinghua AI | github | 通用 |
备注:
PyTorch转TensorFlow可参考: CPM-LM-TF2
PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle
- 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
T5 | small | huggingface | huggingface | DBIIR @ RUC | UER | 通用 |
-
2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv |
PDF
-
2019 | PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization | Jingqing Zhang, et al. | arXiv |
PDF
-
2021 | T5 PEGASUS:开源一个中文生成式预训练模型 | 苏剑林. | spaces |
Blog post
模型 | 版本 | Keras | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
T5 PEGASUS | base | 百度网盘-3sfn | ZhuiyiTechnology | github | 通用 | |
T5 PEGASUS | small | 百度网盘-qguk | ZhuiyiTechnology | github | 通用 |
Keras转PyTorch可参考: t5-pegasus-pytorch
- 2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation | Wei Zeng, et al. | arXiv |
PDF
模型 | 版本 | 资源 | 下载地址 | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
盘古α-2.6B | 2.6G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
盘古α-13B | 12G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
- 2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Unilm | base | 百度网盘-tblr | 百度网盘-etwf | YunwenTechnology | github | 通用 |
- 2020 | 鱼与熊掌兼得:融合检索和生成的SimBERT模型 | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
SimBERT Tiny | tiny | 百度网盘-1tp7 | ZhuiyiTechnology | github | 通用 | |
SimBERT Small | small | 百度网盘-nu67 | ZhuiyiTechnology | github | 通用 | |
SimBERT Base | base | 百度网盘-6xhq | ZhuiyiTechnology | github | 通用 |
- 2021 | SimBERTv2来了!融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
roformer-sim | base(L12) | 百度网盘-2cgz | ZhuiyiTechnology | github | 通用 | |
roformer-sim | small(L6) | 百度网盘-h68q | ZhuiyiTechnology | github | 通用 | |
roformer-sim-v2 | base(L12) | 百度网盘-w15n | ZhuiyiTechnology | github | 通用 |
- 2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv |
PDF
模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
---|---|---|---|---|---|---|---|
CPM-2 | 110亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 通用 | 需要申请才能下载 |
CPM-2 | 100亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中英 | 需要申请才能下载 |
CPM-2 | 1980亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中英 | 需要申请才能下载 |
- 2021.08.19 增加Chinese-Transformer-XL:基于中文预训练语料WuDaoCorpus(290G)训练的GPT-3模型
- 2021.08.16 增加CPM-2: Large-scale Cost-effective Pre-trained Language Models
- 2021.08.16 增加Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
- 2021.07.19 增加roformer-sim-v2:利用标注数据增强版本
- 2021.07.15 增加BERT-CCPoem:古典诗歌语料训练的BERT
- 2021.07.06 增加ChineseBERT:Chinese Pretraining Enhanced by Glyph and Pinyin Information
- 2021.06.22 增加StructBERT
- 2021.06.14 增加RoFormer:Enhanced Transformer with Rotary Position Embedding
- 2021.05.25 增加ERNIE-Gram
- 2021.04.28 增加PanGu-Alpha
- 2021.03.16 增加T5-PEGASUS
- 2021.03.09 增加UER系列模型
- 2021.03.04 增加WoBERT