Skip to content

Latest commit

 

History

History
281 lines (219 loc) · 8.71 KB

TIOBE_timeline.md

File metadata and controls

281 lines (219 loc) · 8.71 KB
layout title permalink key tags lang author chart aside
article
SpeechIO TIOBE 评测榜
/timeline
TIOBE_timeline
TIOBE-Benchmark
zh-Hans
SpeechIO
true
toc
true

TIOBE 评测介绍

TIOBE 评测介绍

TIOBE 评测规范

TIOBE 评测规范

滚动汇总

更新日志

最新更新日期:2020.08

  • 2020年8月:
    • 场景:增加 播客 创业内幕
    • 测试:全厂商 × 全场景 滚动刷新测试
  • 2020年7月:
    • 场景:增加 播客 故事FM
    • 重要修复:发现 直播带货 李佳琪薇娅 直播 王者荣耀 老罗语录 三个场景测试集标注错误,全面检查&修正;作废这三个测试集上个月(6月)的测试结果。
    • 测试:全厂商 × 全场景 滚动刷新测试
  • 2020年6月:
    • 场景:增加 直播带货 李佳琪薇娅 直播 王者荣耀 老罗语录
    • 厂商:增加 阿里+ ,为阿里云新算法的试用版; 测试中取消 谷歌,因谷歌的中文识别性能没有参考性,且费用超过其余各家之和。
    • 更名:原搜狗知音平台 改名为 搜狗AI开放平台
    • 测试:全厂商 × 全场景 滚动刷新测试
  • 2020年5月:
    • 修复搜狗多句结果解析bug
    • 场景:增加 天下足球-世界杯往事 罗振宇跨年演讲 李永乐老师在线讲堂
    • 厂商:增加 创S
    • 测试:全厂商 × 全场景 滚动刷新测试
  • 2020年4月:
    • 场景:增加 鲁豫有约大咖一日行
    • 厂商:增加 微软 Azure 认知服务 搜狗知音平台
    • 测试:全厂商 × 全场景 滚动刷新测试
  • 2020年3月:
    • 场景:增加 新闻联播
    • 厂商:增加 阿里 百度 谷歌 讯飞 腾讯 创Y

总表

<iframe width="879" height="543" seamless frameborder="0" scrolling="no" src="https://docs.google.com/spreadsheets/d/e/2PACX-1vTyilRW3l4dJQGs_Ia24mBdn7uQ_xuCqG28LBz7CiXkYzmHLrmtxa3rLTdqdWNEGLh71iHj0-9XVV3c/pubchart?oid=1381650365&format=interactive"></iframe>

场景测试详情

说明

  • 过去十年,语音行业的技术水平和数据积累都取得长足的进步,但始终没有贯彻一致的测试数据,来定量的追踪这种时间变化趋势,甚至做出行业整体的提升曲线。虽然现阶段语音技术发展进入相对的平缓期,但 SpeechIO TIOBE 测试还是会尝试在未来逐步填补这一空白。Better late than never.

  • 在很多的语音团队中,内部的测试集,最后实际上都变成了一个调参的开发集(一个观察,不一定对),相信各团队中负责核心识别率研发的同学都能理解这个观察。我们这样一个外部的大规模、多领域的中立测试集,多少也会对各团队的研发起到参考作用,希望我们的这部分工作能使整个行业受益。

  • 我们正在构建的应该是语音行业有史以来最大的多领域中文测试集,大家接下来想看到什么样的场景和领域测试,可以后台私信参与进来,两个原则:公开渠道;公众熟知。我们会选取有普遍参考价值的领域进行实施。

  • 原则上,我们会尽量密集的进行追踪测试。但出于资金和时间精力的投入,我们不保证滚动测试每月都更新。

场景:新闻联播

场景详情

场景详情链接

滚动测试

字准确率 2020.03 2020.04 2020.05 2020.06 2020.07
阿里 98.59 98.98 98.98 98.97 98.98
阿里+ N/A N/A N/A 98.63 98.84
百度 97.58 97.59 97.79 97.70 97.71
谷歌 95.32 95.32 95.30 N/A N/A
讯飞 98.88 98.87 98.88 98.54 98.88
微软 N/A 98.57 98.57 98.61 98.61
创S N/A N/A 99.15 99.15 99.18
搜狗 N/A 97.94 98.51 98.51 98.86
腾讯 97.8 97.77 97.81 98.68 99.12
依图 98.91 98.91 99.0 99.0 99.0

简评

  • 除 Google 外,上述测试对象的错误率已经达到1%~2%水平,即100个字中只发生1到两个字的错误。举一个不完全准确,但直观例子来说明:语音识别中的核心模块,完成从声音到拼音序列的转化,之后的过程与拼音输入法无异。大家可以回想一下自己在使用拼音输入法过程中的错字率,来更直观的对比这里1%~2%的字错误率。可以说,该场景在现有的语音识别技术水平下,已经是一个已解决的问题。
  • Google 的识别率明显低于国内厂商。毋庸置疑,Google 在语音技术上处于全球前列,引领技术进步路线。国内企业整体更好的原因,主要应在于中文领域的数据积累和资源打磨,相反,相信若测试切换到英文场景,会有类似反转。这种优势,应该会持续体现在我们下面的各个领域测试中,留待我们后续验证。该例子说明,除算法外,领域数据的积累和打磨,对最终系统的性能表现也至关重要。

场景:鲁豫有约 大咖一日行

场景详情

场景详情链接

滚动测试

字准确率 2020.04 2020.05 2020.06 2020.07
阿里 92.96 92.96 92.97 93.02
阿里+ N/A N/A 94.46 94.61
百度 91.15 91.15 91.14 91.15
谷歌 81.26 81.16 N/A N/A
讯飞 93.77 93.77 93.53 93.64
微软 93.17 93.17 93.26 93.23
创S N/A 95.45 95.55 95.51
搜狗 92.83 92.86 93.03 93.76
腾讯 89.38 89.41 93.38 94.95
依图 95.44 96.31 96.31 96.31

简评

  • 跟上期的新闻联播相比,可以发现各家的识别性能都发生了明显的下降,读者可以详细对比两篇领域测试中的[场景特点]部分,从中了解识别性能差异的来源。其中,自然对话、现实生活中的各种背景噪音,都是很重要的影响因素。

  • 鲁豫有约大咖一日行节目,是专业的团队制作,仍属于高质量语音。现实生活中,会有很多信噪比糟糕得多的场景,现阶段语音识别的性能会更大幅度的下降。因此大家可以看到厂商们都在推出各种各样的硬件设备,配合新的语音技术去解决这类问题。

场景:天下足球 世界杯往事

场景详情

场景详情链接

滚动测试

字准确率 2020.05 2020.06 2020.07
阿里 96.62 96.62 96.65
阿里+ N/A 96.74 96.89
百度 92.46 92.46 92.47
谷歌 87.34 N/A N/A
讯飞 97.38 96.80 97.35
微软 95.99 96.02 95.97
创S 98.87 98.90 98.91
搜狗 93.85 93.30 95.38
腾讯 91.57 95.70 97.43
依图 98.83 98.83 98.83

简评

场景:罗振宇 跨年演讲

场景详情

场景详情链接

滚动测试

字准确率 2020.05 2020.06 2020.07
阿里 96.76 96.76 96.61
阿里+ N/A 96.96 97.06
百度 95.11 95.12 95.11
谷歌 91.07 N/A N/A
讯飞 96.70 94.77 96.53
微软 96.11 96.22 96.2
创S 97.62 97.61 97.57
搜狗 96.35 96.43 96.77
腾讯 96.01 96.63 97.28
依图 98.03 98.04 98.03

简评

场景:李永乐老师 在线讲堂

场景详情

场景详情链接

滚动测试

字准确率 2020.05 2020.06 2020.07
阿里 94.83 94.83 94.85
阿里+ N/A 95.59 95.75
百度 90.33 90.33 90.32
谷歌 82.75 N/A N/A
讯飞 94.52 94.44 94.49
微软 94.14 94.42 94.22
创S 96.61 96.69 96.55
搜狗 93.93 93.90 95.14
腾讯 94.98 94.98 95.73
依图 97.07 97.08 97.07

简评

场景:直播 王者荣耀

场景详情

场景详情链接

滚动测试

字准确率 2020.07
阿里 86.15
阿里+ 90.76
百度 85.18
讯飞 83.73
微软 83.57
创S 89.2
搜狗 89.21
腾讯 91.35
依图 90.81

简评

场景:直播 带货

场景详情

场景详情链接

滚动测试

字准确率 2020.07
阿里 81.02
阿里+ 86.49
百度 78.13
讯飞 82.8
微软 80.1
创S 88.04
搜狗 84.69
腾讯 87.34
依图 88.19

简评

场景:老罗语录

场景详情

场景详情链接

滚动测试

字准确率 2020.07
阿里 79.62
阿里+ 88.85
百度 73.85
讯飞 81.37
微软 84.48
创S 90.23
搜狗 87.77
腾讯 91.61
依图 92.87

场景:播客 故事FM

场景详情

场景详情链接

滚动测试

字准确率 2020.07
阿里 93.14
阿里+ 94.42
百度 91.45
讯飞 93.48
微软 92.6
创S 95.09
搜狗 94.07
腾讯 94.64
依图 95.85

简评

场景:播客 创业内幕

场景详情

场景详情链接

滚动测试

字准确率 2020.08
阿里 93.94
阿里+ 94.72
百度 89.48
讯飞 93.36
微软 92.9
创S 94.92
搜狗 94.69
腾讯 94.70
依图 95.49

简评