%的老年人患有帕金森氏症——一种使人衰弱的神经退行性疾病——但多达四分之一的病例被误诊。
正如梅奥诊所所写的,诊断帕金森氏症并不是一项简单的任务。没有特定的诊断测试,训练有素的神经学家需要审查患者的病史、症状,并进行神经和身体检查,使用多巴胺转运蛋白扫描等技术,以及血液测试和成像测试来帮助排除其他疾病。
在医疗资源较少的发展中国家,诊断的难度更大。与许多其他疾病一样,在这次疫情期间,未诊断和未治疗的帕金森病病例可能有所增加。帕金森病甚至可能成为第三波疫情。
幸运的是,有更快、更简单的方法来诊断帕金森氏症,这并不需要密集的亲自出诊。帕金森患者表现出特有的发声特征,机器学习可以用来捕捉这些特征,有效地筛选潜在的患者。
帕金森氏病影响说话,症状包括发音困难、音量降低和音高范围缩小。
牛津大学收集了 31 个人的 195 段录音:23 人患有帕金森症,8 人没有。这些列包括提取的特征,如平均声音基频以及频率和振幅变化的测量值。
只有 195 行数据,这是“小数据”用例的一个很好的例子。一个普遍的神话是,人工智能需要大数据,尽管深度神经网络的准确性往往会随着数据的增加而增加,但并非所有的人工智能都必然是数据密集型的。在另一篇文章中,我展示了一个不到 100 行的数据集如何被用来预测 2020 年的政治不稳定性。
我们可以将数据原样上传到 AutoML 工具 Apteo 来制作帕金森病的预测模型。
我们选择status
作为我们的 KPI,它指的是受试者的健康状况,1
表示他们患有帕金森病,0
表示他们很健康。所有其他列都用作属性。后台做一套机器学习模型来预测status
。我们还可以看到每个属性(或不同的音频特征)如何影响status
。
梯度增强分类模型被自动选择为最准确的模型,交叉验证的 Jaccard 得分为 0.892。粗略地说,该模型的预测与患者是否患有帕金森症的现实有 89.2%的相似性。
回想一下,帕金森氏症的 mis 分类率高达 25%,因此,在没有神经科医生或亲自出诊的情况下,仅通过声音特征就能准确预测帕金森氏症的模型是非常不可思议的。
事实上,在现实世界中部署这些模型正在取得进展,例如通过帕金森声音倡议,该倡议旨在记录 10,000 个声音(大约 50 倍的数据),承诺极高的准确性。
这是一个预测分析的惊人案例研究,它将成为帕金森氏症患者的游戏规则改变者。即使只有很小的数据集,我们也可以在一项困难的医疗任务中获得很高的准确性。