下面的数据集都是中文的。
Data | size(train) | size(valid) | size(test) |
---|---|---|---|
ATEC | 62477 | 20000 | 20000 |
BQ | 100000 | 10000 | 10000 |
LCQMC | 238766 | 8802 | 12500 |
PAWSX | 49401 | 2000 | 2000 |
STS-B | 5231 | 1458 | 1361 |
SNLI | 146828 | 2699 | 2618 |
MNLI | 122547 | 2932 | 2397 |
训练集: SNLI 和 MNLI
测试集: ATEC、BQ、LCQMC、PAWSX 和 STS-B
考虑到有些数据集的 test 集较小,可能会导致评估准确性偏差较大,所以这里的评估数据同时使用了train、valid和test,且最终评估结果采用了加权平均(w-avg)的方法得到。
这里使用相同的语言模型RoBERTa Base。
Model | STS-B | ATEC | BQ | LCQMC | PAWSX | Avg. |
---|---|---|---|---|---|---|
BERT-Whitening | 65.27 | - | - | - | - | - |
SimBERT | 70.01 | - | - | - | - | - |
SBERT-Whitening | 71.75 | - | - | - | - | - |
BAAI/bge-base-zh | - | - | - | - | 78.61 | - |
hellonlp/simcse-base-zh | 80.96 | - | - | - | - | - |
hellonlp/promcse-base-zh | 81.57 | - | - | - | - | - |
这里使用相同的语言模型RoBERTa Large。
Model | STS-B(w-avg) | ATEC | BQ | LCQMC | PAWSX | Avg. |
---|---|---|---|---|---|---|
BAAI/bge-large-zh | 78.61 | - | - | - | - | - |
BAAI/bge-large-zh-v1.5 | 79.07 | - | - | - | - | - |
hellonlp/simcse-large-zh | 81.32 | - | - | - | - | - |
hellonlp/promcse-large-zh | 81.63 | - | - | - | - | - |
RAG 之 Embedding 效果对比
文本语义相似度 | PromCSE 实战
文本语义相似度 | SimCSE 实战
文本语义相似度 | Sentence BERT 实战
文本语义相似度 | BERT Whitening 实战