极速统计教程之五 | 相关性

欢迎关注微信公众号「Swift 花园」

很多人喜欢吃巧克力,但多数人吃巧克力是比较谨慎的。因为吃了太多巧克力,很有可能会增加体重。在这一期的教程中,我将讨论如何使用表格和图表展示 两个变量之间的关系 。这有助于发现两个变量之间是否存在 相关性 (correlation)

列联表 (Contingency Tables)

我们来进一步研究吃巧克力和体重之间的关系。

假设我在我们学校选择了 200 名女学生。她们身高都是一米七。这样,身高就是一个常数,不会影响体重或吃巧克力。让学生报告体重及每周巧克力消费情况。体重可以选择这样几个类别:小于 50 公斤; 50 至 69 公斤; 70 至 89 公斤和 90 公斤或以上。巧克力消费量可以选择这样几个类别:每周少于 50 克;每周 50 至 150 克;每周超过 150 克。

结果如下,这里看到的是 列联表列联表 能够显示 两个定序或定类变量之间的关系 。 它类似于频率表,但主要区别在于 频率表始终只考虑一个变量,而列联表考虑两个变量

在我们的研究中,有两个变量:体重和巧克力消费量。

该表显示我们有 33 个体重小于 50 公斤的样本 其中 27 人每周吃巧克力少于 50 克。还可以看到,每周有 90 人吃 50 至 150 克巧克力,其中 7 个体重 90 公斤及以上。

这种情况下,该表并不能提供两个变量之间的相关性信息,因为列和行包含不同数量的个案 —— 计算百分比可以提供更多洞察力。这种情况下,我们计算列的百分比,这意味着对于每个单元格,我们计算该单元格中的案例百分比,与相应列中的案例总数进行比较。

结果如示:

我们也可以将这些百分比表示为比例: 45% 则变为 0.45, 38% 变为 0.38 。我们将这些比例称为 条件比例 (conditional proportions) —— 因为形成需要以另一个变量为前提条件。在这种情况下,该变量是巧克力消费量。

我们也可以忽略巧克力消费的信息,并使用表格边缘的计数。这些都是 边际比例 (marginal proportions) 。例如, 33 除以 200 等于 0.17 。这个比例显示,研究中比例是 0.17 或 17% 的受访者中,重量不到 50 公斤。

这是什么意思呢? 在每周吃巧克力超过 150 克的样本中, 56% 的人体重达 90 公斤及以上;吃巧克力少于 50 克的样本中,只有 5% 体重为 90 公斤或以上;另外,那些吃巧克力不到 50 克的人, 45% 的人体重不到 50 公斤,而吃巧克力超过 150 克的人,只有 2% 的体重不到 50 公斤。

这些百分比表明:吃更多巧克力的人也更容易超重,而少吃巧克力的人也更可能体重较小。换句话说,百分比表明巧克力消费量与体重之间存在相关性。


散点图 (Scatterplot)

  • 列联表对定类和定序变量很有用,但不适用于定量变量。对于定量变量,散点图更合适。 假设没有提供类别,而是让 200 名女性给出确切的体重,例如 65 或 72 公斤。假设也要求他们告知每周吃巧克力的确切重量,例如每周可以是 64 克或 99 克。现在,有比之前更精确的信息展示定量变量,巧克力消费和体重之间关系的最佳方法是使用 散点图

制作散点图,我们绘制两条线,称之为 。我们将水平轴称为 X 轴 。这里展示的是 自变量 (independent variable) ,垂直轴称为 Y 轴 ,我们用它来表示 因变量 (dependent variable) 。如果因变量和自变量之间没有区别,则 Y 轴和 X 轴上的位置是一个选择问题。在我们的例子中,自变量是巧克力消耗量,因变量是体重。

假如我们的研究表明,最少的巧克力消耗等于每周零克,最高的量是每周 700 克。我们在 x 轴上标注这些值;同样,体重的最小值为 40 公斤,最大值为 110 公斤。

接着我们在此图中显示每个人,为样本中的所有人做标注,这就绘制出了一幅散点图。散点图一目了然地显示巧克力消费量与体重之间存在相关性:吃的巧克力越多,体重就越高。


小结

大家学到了什么呢?不止于巧克力消耗量和体重的相关关系,我想大多数人已经意识到了:我们可以通过表格和图表显示 两个变量之间的关系当研究中的变量是定类或定序变量时,我们使用列联表;当它们是定量测量时,我们使用散点图


皮尔逊积矩相关系数 (Pearson’s r)

散点图一目了然地表明两个变量之间存在很强的相关性,但 这种相关性有多强 ?我们现在将要讨论最常用的相关性度量方法之一 —— 皮尔逊积矩相关系数 。皮尔逊相关系数最重要的优点之一是:它用一个数字表示两个变量之间线性相关的 方向强度

巧克力消费和体重之间的关系可以用这条直线来描述。因为所有案例都紧密围绕这条线,所以可以得出结论,这是一个相当强的相关性关系。

另一个需要注意的点是,直线向上延伸,表明更多的巧克力消耗与更高的体重相关。因此,也可以说存在 正相关 关系。结论:这里存在一个强正向线性关系。

然而,变量也可以以不同的方式相关联。

在上图的第一幅图中,可以看到变量 x 和 y 之间存在相当强的正向线性关系,如同巧克力消费和体重的示例一样;而在第二幅图中,存在一个相当强的负向线性相关性 —— 直线向下表示当变量 x 上升时,变量 y 下降。第三幅图也可以看到正向线性关系,但是它比之前的强度要小得多 —— 因为每个案例都远离直线。第四幅图则是一个完全负向线性相关。之所以说完全的,是因为所有案例都完全落在线上。

但两个变量之间的相关性不必是线性的。在第五幅图中,可以看到变量 x 和 y 之间的关系。最能代表两个变量之间关系的线并不是直线。相反,是一个 U 形线,我们称之为曲线关系。

散点图有助于我们总体评估相关性是强还是弱,但它并没有告诉我们这种关系强度到底是多少。皮尔逊相关系数恰巧可以展示确切数字 —— 更具体地说,皮尔逊相关系可以告诉我们 两个定量变量之间线性关系的方向和精确强度 。正皮尔逊相关系数表示相关性为正,而负系数表示相关性为负。

系数的大小表示 观测结果围绕数据假想最佳拟合直线的紧密程度皮尔逊相关系数是始终介于 -1 和 1 之间的数字:负 1 表示完全负相关;正 1 表示完全正相关; 0 表示完全没有相关性。

那如何计算皮尔逊相关系数呢?试想巧克力消费和体重的研究不是 200 个样本,而是四个样本。

下面是数据矩阵和散点图:

可以看到两个变量的每个值的组合在图形中变为一个圆点。要计算皮尔逊相关系数,我们需要这个公式:

这是什么意思呢?首先将所有原始分数改为 z 分数,换句话说,标准化所有数值 —— 原因是我们希望皮尔逊相关系数是介于 -1 和 1 之间的数字 。如果不进行标准化,相关性将会以原始数据呈现。

首先,我们计算两个变量的均值:变量 x 的值为 162.5 ,即巧克力消耗量;变量 y 的值为 71.25 ,即体重。然后计算两个变量的标准差, x 的结果为 110.9 , y 的结果为 18.4。再然后计算每个案例的 z 分数,从每个值中减去均值,然后除以标准差。

为自变量的每个值,即巧克力消耗量,因变量的每个值,即体重,进行如此计算。下一步,计算 y 值 z 分数和 x 值 z 分数的乘积。

计算公式的最后一部分,将所有这些 z 分数的乘积相加,将得数除以 n 减 1。所以在我们的例子中,皮尔逊相关系数是 2.78 除以 (4 - 1) ,等于 0.93 。这是什么意思呢 —— 这意味着巧克力消费与体重之间存在强烈的正向线性关系。

一个重要注意事项:即使关系是非线性的,也可以随时计算皮尔逊相关系数。因此,在计算皮尔逊相关系数之前,要先检查散点图看变量是否存在线性相关 ,这一点非常重要。如果不存在,就不要计算皮尔逊相关系数,因为它就不能提供太多变量关系信息。

例如,下面这个散点图显示 x 和 y 之间存在强烈的 曲线关系 。如果计算皮尔逊相关系数,会得到一个非常低的值,负 0.15 。这并不能说相关性较弱,只能说线性相关性较弱。

小结

计算四个样本的皮尔逊相关系数是相当容易的。但是,可以想象,当样本是 200 个时,这几乎是不可能完成的任务。幸运的是,每个统计程序都可以快速计算皮尔逊相关系数。然而,重要的是要了解皮尔逊相关系数究竟意味着什么。了解公式的含义也很重要,它可以帮你更好地理解变量的相关性,也可能会帮你决定 “每周吃多少巧克力。” :)


Linkedin
Plus
Share
Class
Send
Send
Pin