Skip to content

Latest commit

 

History

History
155 lines (88 loc) · 7.99 KB

understanding-z-scores-in-statistics-c94f38fc3cc5.md

File metadata and controls

155 lines (88 loc) · 7.99 KB

了解统计学中的 Z 分数

原文:https://pub.towardsai.net/understanding-z-scores-in-statistics-c94f38fc3cc5?source=collection_archive---------2-----------------------

深入探究 Z-score,这是统计学中广泛使用的指标

使用 Canva 设计。

我们大多数人都听说过/用过统计学中的术语均值、中位数和众数。为了获得更好的想法,你可以在这里阅读我的文章。现在,让我们来讨论可变性和 Z 分数的度量。你们中有多少人知道 Z 分数在日本被用来评估学生的学习成绩?世卫组织在儿童成长调查中也使用 z 分数。为了理解 Z 分数,让我们试着理解可变性测量背后的直觉。

差异量数

可变性(也称为扩散、分散)指的是数据的扩散程度。

范围

例如,考虑以下分布— A = [6,6,6,6] B = [1,6,1,6]

列表 A 中的值没有变化,而列表 B 中的值显示出一些可变性。如果我们要给两个列表分配一个可变性分数,我们会给 a 分配0B 的分数是多少?

我们需要一个度量来描述给定分布的可变性。一种直观的方法是找出分布的最大值和最小值之间的差异(也称为范围)。对于列表 A,最大值和最小值是 6, 因此,对于列表 B,最大值是 6,最小值是 1。 因此,max(B) — min(B) = 5。

一般来说,分布 X 的范围由下式给出

范围的问题在于它只考虑了分布中的两个值。例如,考虑下面的分布- C = [1,1,1,1,1,1,1,1,1,1,1,21]

由于 C 语言没有太多的可变性,我们期望可变性接近于零。如果我们计算上述分布的范围

范围(C) =最大(C)-最小(C)= 21–1 = 20。

与零相比,这是非常高的**,并且似乎不是可变性的合适的测量。由于该范围只考虑两个值,因此对异常值非常敏感。**

方差和标准差

为了得到一个更平衡的可变性度量,如果我们考虑分布的每个值会更好。解决这个问题的一个方法是。取一个参考值(平均值/中值)。 2。找出每个值与参考值的距离。 3。求所有距离的平均值。(距离总和/总距离数)

使用 Canva 设计。

代数上的这个方法可以用下面的方式来表达。考虑均值为μ,分布为[X₁,X₂,X₃,X₄,…..Xn】。

现在,让我们考虑以前使用的分布- C = [1,1,1,1,1,1,1,1,1,21],平均值= 3

如果我们计算平均距离,我们观察到分子是零。为了克服这个问题,我们考虑距离的平方,而不仅仅是分子的差异。

尽管取绝对值是另一种解决方案,但平方函数是首选,因为它具有

a)更好的性质(如平滑和可微分)

b)也放大了异常值的影响。

这个表示距离的平方,也称为方差。现在让我们计算分布 c 的方差。

36 的值高于预期。这是直接平方距离的结果,并且反映在较高的值中。在某些情况下,也会出现单位不匹配的情况。

为了克服上述问题,我们取距离平方和的平方根,这就是所谓的标准差。

一般来说,标准偏差是最常用的传播度量。从现在开始,我们将使用一个数据集来描述 2016 年到 2010 年在美国埃姆斯市出售的房屋的详细情况。数据集中有 2930 行,每行描述一栋房子。

让我们试着找出房屋数据集中“销售价格”列的标准偏差。

print(standard_deviation(houses['SalePrice']))Output - 79873.05865192247

“销售价格”列的含义是

print(houses['SalePrice'].mean())Output - 180796.0600682594

平均值告诉我们,一所房子的平均价格大约是 1,80,796 美元,但这并不意味着所有的房子都会有 1,80,796 美元的价格。会有价格在 120,000 美元左右的房子,也很少有价格在 240,000 美元的。标准差会给我们一个价格相对于平均值如何变化的图像。因此,79873 美元的标准差意味着价格在平均值上下浮动大约 79873 美元。

标准差不是为价格限制设定界限,而是试图解释大多数房屋属于平均值+标准差平均值-标准差的类别

z 分数

让我们从“销售价格”列中选择一个示例价格。

print(houses['SalePrice'].sample(1, random_state = 0))Output:
2216    220000
Name: SalePrice, dtype: int64

random_state = 0确保每次都选择相同的元素,因此可以在将来需要时复制结果。

我们出价 22 万美元。**这个价格是便宜,一般,还是贵?**要回答这个,我们可以求均值,算出来。由于我们已经计算了平均值(1,80,796 美元),我们可以得出结论,随机选择的价格比平均值更贵。

但是我们如何估计这个价格是否比平均值稍微偏高或者偏高呢? 这个可以用标准差来回答。为了更好地理解这一点,考虑两个销售价格的正态分布样本(创建用于解释)。两种分布都具有相同的平均值 180,000,但标准偏差不同。

使用 Canva 设计。

对于一个标准差较大的样本,可以看到我们的值接近均值,说明 220k 的价格很常见(关于其他价格)。然而,对于具有较小标准偏差的样本,我们可以看到我们的值远离平均值,这表明 22 万的价格是昂贵的(关于其他价格)。

在上面的过程中,我们通过计算均值、标准差来确定 220000 美元的价格贵不贵,并把它们标绘出来得到清晰的画面。我们还依赖于缺乏所需准确性的视觉图。我们需要找到一种更快、更准确的方法来测量给定值与平均值的差距。

现在,让我们再看一下上面的分布。在这两个分布中,我们随机选择的值 $2,20,000 和平均值 $1,80,000 之间的距离$40,000 。在左侧的分布中,该距离正好等于标准偏差(s = 40,000),而在右侧的分布中,该距离是标准偏差的 4 倍(s = 10,000)。

记住以上两点,我们可以说,在左侧分布的情况下,2,20,000 美元距离平均值 1 个标准偏差,我们可以得出结论,2,20,000 美元相对接近平均值,与其他房屋相比并不昂贵。

在右侧分布的情况下,2,20,000 美元距离平均值 4 个标准偏差,我们可以得出结论,2,20,000 美元相对不常见且昂贵。

使用 Canva 设计。

从代数上来说,我们可以通过计算给定值和平均值之间的距离,并将该距离除以分布的标准偏差来计算。在我们的例子中,代码看起来像—

distance = 220000 - houses['SalePrice'].mean()
st_devs_away = distance / houses['SalePrice'].std()

代表偏离平均值的标准偏差数量的值通常被称为标准分数Z 分数

其中 x 表示值,μ表示平均值,σ表示标准差。

一般来说,Z 分数可以是正的(T0)和负的(T3)。让我们考虑一下左边的分布,有一个标准差(s =$40,000)。我们已经知道平均值是 18 万美元。值为 1,00,000 美元的 Z 得分将是 -2 ,因为它比平均值小 2 个标准差。

结论

在这篇文章中,我试图解释可变性的度量和它们的直觉。我还解释了在日常生活中广泛使用的 Z 分数的概念。我很乐意听到你的回答,更多的 Z 分数的应用。我希望你今天学到了新东西!在那之前,注意安全!

如果想联系,LinkedIn上联系我。

参考

  1. 数据请求. io