Skip to content

Latest commit

 

History

History
77 lines (39 loc) · 6.3 KB

fishing-d25617f988ac.md

File metadata and controls

77 lines (39 loc) · 6.3 KB

钓鱼:分析零膨胀数据的贝叶斯方法

原文:https://pub.towardsai.net/fishing-d25617f988ac?source=collection_archive---------1-----------------------

在过去的文章中,我已经展示了几种对大多数正态分布数据应用贝叶斯分析的方法。在这个例子中,我想使用一个离散的响应,以及比膨胀的响应更好的分布。你没看错——这篇文章将以贝叶斯方式对零膨胀的响应进行建模。

零膨胀响应分布是这样一种分布,其中有比你通常想要的更多的零,但它们确实存在。因此,你需要处理他们,有各种各样的方法来应对。最直接的方法是应用零膨胀模型或应用障碍模型。它们的工作方式稍有不同,但它们的共同点是,您将建模分为两部分,一部分用于建模零,另一部分用于建模其余部分。这将通过两个独立的模型(栏)或通过混合分布(零膨胀模型)来完成。

再次,代码在底部,以避免污染故事。此外,代码最终会显示比我这里更多的信息。诀窍是运行我所做的一切并扩充它。不只是跟随我的脚步。

好的,让我们来看看数据集,可以在这里找到。如您所见,我们有许多离散数据,既有二进制数据,也有序数或多项式数据。离散数据分析起来很有趣,尽管有点挑战,但对任何分析师来说都不是大问题。只要想想比例|概率|和比率,你就没事了。

从网站上获取的数据集。有一些不错的数据。让我们探索吧!

接下来是绘图部分,我想看看我有什么。当然,数据集有关于鱼的信息,最重要的指标是数量。我们正在处理计数数据。

几个变量与鱼获数量的关系。

当绘制分布图时,数据的零膨胀性质立即变得明显(尽管您已经可以在点图中看到它)。如果你试图通过标准的泊松进行分析,或者甚至在使用伽马泊松(负二项式)时,开始时的尖峰会给你带来问题。

开始时的大峰是需要解决的零膨胀分布的信号。

我也是。尝试分割数据可以让你对影响零通胀的因素有所了解,所以你可以直接对其建模(例如通过使用栅栏模型),但似乎找不到一个单一的因素。

到建模部分。当然,我要去贝叶斯,这意味着我将不得不处理贝叶斯分析的三个火枪手:先验,可能性和后验。因为我知道响应类似于零膨胀分布,所以我可以要求 brms 包向我展示模型将自动假设的先验。由此可见,如果我决定带上自己的先验知识(当然,我会!),它会希望我提供超参数。).

基于数据的模型的先验和我使用的先验。如你所见,这个模型没有给出信息先验,而我给出了,因为我确保了先验分布的变化足够小,让他们选择一个方向。因此,它们是信息丰富的。我如何选择他们现在无关紧要,因为我遇到了这个数据集,我没有做任何事先调查。在成熟的贝叶斯分析中,寻找信息先验的研究当然是关键。

以及来自模型的结果。检查一下先验和后验的区别。这会给你一个关于数据集影响的概念,可能性!

链条衔接得非常好。

这里没问题。我正在寻找合适的采样空间,这就是我所发现的。采样空间的平均值和标准差之间存在关系,但这不是问题。此外,观察到的反应的均值和标准差与从后验样本中抽取的样本不一致,这并不是真正的问题。记住:后验=先验可能性。或者说,新知识=先验知识最新数据。因此,很有可能最新的数据集与先前的知识没有联系。科学万岁!

当谈到贝叶斯分析时,您确实希望看到您的模型能够逼近数据赖以存在的基础分布(这听起来有点矛盾——分布是一种人造的构造)。因此,在检查贝叶斯模型的适当性时,您希望看到的是链很好地收敛,并且所使用的模型中的分布足够适当。我们可以通过观察将数据转换成均匀分布的凹坑来做到这一点。如果 QQ 图显示样本在对角线上,那么潜在分布(这里不均匀)很可能是我们所认为的零膨胀分布。这里的线条并不完美,但我会给它一个通行证。对模型来说不是最容易的数据。

零膨胀泊松(左)是比正态分布更好的拟合方式。

看起来也不错。

看起来又好了。

没什么好抱怨的。

因此,从上面来看,似乎该模型能够很好地模拟数据,因此我们可以使用该模型来更好地了解通过提取条件分布图找到的潜在关系。下面你看到的是变量 personschild 和 camper 与 count 之间的关系。

条件概率图,这里是计数。

我希望这个例子足以让您开始对零膨胀数据集建模。仔细阅读下面的代码,如果有什么问题,请告诉我!

尽情享受吧!