Skip to content

Latest commit

 

History

History
121 lines (61 loc) · 7.51 KB

good-old-iris-93358b8ecdbd.md

File metadata and controls

121 lines (61 loc) · 7.51 KB

善良的老艾瑞斯

原文:https://pub.towardsai.net/good-old-iris-93358b8ecdbd?source=collection_archive---------2-----------------------

Fisher 数据集的贝叶斯建模

虹膜数据集肯定是有史以来使用最多的数据集。至少,对我来说,每当有一种新的技术可以使用,或者有人想展示他们在建模方面所做的事情时,这就是我看到的数据集。所以,我想,让我们继续传统,也使用 Iris 进行贝叶斯建模。如果仅仅是为了将贝叶斯应用于罗纳德·费雪爵士构建的数据集的乐趣 Frequentist 先生本人。

虹膜数据集不需要任何解释,如果需要,只需谷歌一下。是关于花的。

显示三个变量及其潜在物种之间关系的图。不难理解为什么 iris 经常被用来展示分解算法,如主成分分析或 K-means 聚类。数据集真的很美。然而,我想对它应用回归。只是因为我可以。

让我们从一个简单的线性回归开始,用老方法,试着将花瓣长度物种萼片长度联系起来。就其假设而言,该模型看起来出奇地好,但假设不是预测。

现在是时候进行贝叶斯分析了,我将开始使用 rstanarm 包,其中我表示先验 R 平方为 0.75。这是我在别处找到的一个例子,我不知道为什么有人会给这样的先验贴上标签,考虑到 R 平方值本身是完全没有意义的。从相当不错到糟糕透顶的一系列关系中,你可以有相同的 R 平方值。无论如何,让我们看看会发生什么,然后继续做更好的事情。

来自贝叶斯模型的后验结果。

并且结果是可视化的。

有效样本量( neff )和 rhat 指标。 neff 应尽可能高, rhat 应在零附近盘旋。就我个人而言,我不喜欢这些指标。我更喜欢看链子本身。

看起来不错!记住:看看边界内的变化链。你想看噪音。对于其余部分,可能性( y )和后验值( yrep )不需要一致。这是科学,不是自我实现的预言狩猎。

关键时刻到了。后验预测甚至没有接近可能性。现在,这是大多数人恐慌的地方,宣布他们的模型是错误的,要么改变先验以非常接近可能性,模糊并使用无信息的先验,要么放弃贝叶斯分析。第二个和第三个选项其实是一样的。现在,如果我相信我的先验是正确的,鉴于目前的证据基础,我相信我有时尚的样本新数据,我可以捍卫这只是你的结果。开心点!你发现了一些非常有趣的东西。建模不是按数字上色,而是绘画。

更多相同的情节,但又不同。

好的,就像我们经常看到的最大似然模型一样,我们也可以评估贝叶斯模型。但是,这些指标不再被称为 AIC 或 BIC(尽管 BIC 确实代表贝叶斯信息标准),而是帕累托-k 诊断和交织在一起的预期对数预测密度 ( elpd ),后者是通过留一法( loo )交叉验证获得的。就像 AIC 或 BIC 一样,这些值意义不大,只有在比较(嵌套)模型时,查看它们才有意义。

看起来不错。左边的图没有显示模式,中间和右边的图也没有。如我所说,这些指标只有在比较模型时才有意义。对于模型内评估,坚持链式评估,看看你的先验、似然和后验的分布,尤其是它们之间的变化。

后验分布看起来很好也很稳定,但是当你比较预测值和观测值时,很明显模型的后验分布与观测值并不重叠。这没有问题,除了让一些人觉得你的模型是错的。但是,也有可能您的模型是正确的,但是从最新数据集采样的数据具有完全不同的机制,或者来自完全不同的情况。那种兴奋!

每种反应的后验图为萼片长度

现在是时候严肃对待和澄清一些前科了。不,是信息性的东西,而是真正有影响的前科,说:“我知道我的证据”。在这里,我从数学上对模型说,我之前的信念是萼片长度花瓣长度花瓣宽度之间没有联系。对于萼片宽度我不知道(这是无稽之谈,但仍然如此),我相信云芝海滨锦葵setosa 相比有不同的效果。

模型定义的先验和我定义的先验。永远不要使用模型先验。自带!

以及模型的后验结果。

链子看起来不错。

抽签看起来不错。

还有美丽的斯坦密码。

左侧为误差分布和校准图。还是那句话,偏差还不错。

更多的抽样检查。看来高斯分布的反应是正确的。

以及每个感兴趣变量的条件分布。

预测图,看起来相当笨拙。如果你问我的话,我觉得有点太多了。

来自后区的每种物种的各种分布图。也许过度展示给他们,但你可以选择。只要抽样没有显示出混乱的发展,这些图看起来就不错。

校准图。

更多校准图。不是所有的都有用,但是你可以制造它们。

以及后验概率,包括每个物种和预测因子。

最后但同样重要的是,每种物种萼片长度的差异的后验分布。

这是一种在著名的虹膜数据集上使用贝叶斯分析的方法。代码在底部。如果你感兴趣,只需复制粘贴并运行它们。底部的代码比我上面强调的要多,我邀请你自己做。

如果有什么不对劲,请告诉我!