依赖 openai, numpy, tqdm, editdistance 使用 更改代码中的参考模型和测试模型配置即可。 判别 目前观察来看,结果分布的左侧(即距离较小的区间)分布特征区分度比较高。若参考和测试模型是不同模型,距离较小的样本罕见;如果模型相同则会出现相当部分距离相当小(例如个位数)的样本。增大采样数可更精确的判断。 局限 目前方法对结果的统计学特征的利用比较浅,如果混用模型可能无法正确判别。后续也许考虑采用一些数理统计上的显著性检验方法。