极速统计教程之二十一 | 假设检验和显著性检验

欢迎关注微信公众号「Swift 花园」

假设

教程来到最后一个模块,很快我要放假了。明天我将背起行囊,出发去潜水。好吧,让我们再谨慎一点,我并不完全确定明天我能成行。我的航班可能延误,我可能睡过头误了航班,或者可能生病导致无法去潜水。总之,我期望明天出发,但我并不能完全地确定。或者说,不能 100% 确定。

当研究人员对于他们感兴趣的参数有所期待时,我们在讨论的是 统计假设 (statistical hypotheses) 。这一节将介绍统计假设。他们构成了 显著性检验 (significance testing) 方法中最主要的部分。一个统计假设,其实就是一个关于总体的期望。通常,假设会被形式化为一条对总体参数持有特定值或者落在特定范围的声明。这种声明是基于研究或者理论。基于样本的信息,我们评价一个假设靠谱与否。这个过程我们称为显著性检验,它是一种用样本数据来检验提前形式化的假设的方法。就像置信区间一样,显著性检验是一种推断统计学的方法。毕竟,我们也是用样本数据来推断关于总体参数的结论。

我们先来看 零假设检验 (null-hypothesis testing) ,在这种检验中,显著性检验基于两个假设, 零假设 (null hypothesis)备选假设 (alternative hypothesis) 。零假设以 $ H_0 $ 注记,备选假设以 $ H_a $ 注记。零假设断言你感兴趣的参数是某个特定值。它通常代表变量之间没有关联的情况,或者组与组之间没有差异的情况。它是一个当你的样本数据表明它不太可能发生时需要被拒绝的假设。而备选假设断言你感兴趣的参数落在另一个范围。通常,零假设和备选假设互斥。如果你做显著性测试,假设零假设为真,除非你的数据有很强的反面证据。

想象一个法庭的庭审。被告方的辩护律师的观点是被告是无辜的,公诉方则试图说服陪审团和法官被告是有罪的。举证有罪的责任在于原告。被告只有在原告提供有力证据驳斥被告假定无罪的情况下才能被认定为有罪。这正是显著性检验里发生的事情。辩护无辜相当于零假设,而有罪预期则等同于备选假设。

在研究实践中,你对于参数的期望是以备选假设的方式出现,而零假设就是对立面,但它必须是一个单值,不能是一个范围。你只有在数据提供强力佐证时才能认定零假设成立。

举个例子,假设你有理由相信全体美国人中有 3% 有过水肺潜水的经历。那么这里的零假设和备选假设分别是什么呢?你的期望被视为备选假设。我们把它写下来, $ H_a:\pi\leq0.03 $ ,零假设是对立面,但必须表示为单一值,因此 $ H_0:\pi=0.03 $ 。

假设你对水肺潜水的最大深度很感兴趣。你有理由期望美国潜水者的最大潜水深度均值 不是 25 米。你的备选假设是 $ \mu\neq25 $ ,零假设是 $ \mu=25 $ 。很简单,不是吗?

记住这条:在显著性检验中,你总是假定你的零假设成立,如果你为备选假设找到足够的支撑,就拒绝零假设。如果你没有找到足够的证据,你就不能拒绝它。但没能拒绝零假设并不意味着零假设就是真的。你可以拿法庭的例子再回味一下。在庭审中,被告被假定无罪。如果有足够的证据证明他或者她有罪,则定罪。没有足够的证据,被告则不会被定罪。但这并不意味着你可以得出他或者她是无辜的结论。

关于比例的检验

假定你对有多少美国人有过水肺潜水经历这个问题感兴趣,你也有理由相信少于 3% 的美国人有这种经历。这意味着你的备选假设是 $ \pi\leq0.03 $ ,你的零假设是 $ \pi=0.03 $ 。

这一节中,我们将学习如何在对比例感兴趣时实施显著性检验。我们是这样来实施检验的:先假定我们感兴趣的总体参数有某个值,在我们收集到来自总体的样本后估计这个值的可能性。因为我们看到是一个样本,所以聚焦在抽样分布。我们可以决定,比如给定总体比例是 0.03 时样本比例的抽样分布。看下图,我们这样来实施检验:评估标准差(因为面对的是抽样分布,所以是标准误差),样本观察到的比例远离总体比例,这个标准误差的数值我们称为 检验统计量 (test statistic)

想象我们抽取了 1000 个美国人,受试者中有水肺潜水经历的人比例等于 0.02 。接下来,我们这么做:

你看到一个样本比例的抽样分布,我们假定零值假设为真,总体比例确实等于 0.03 。那么一个样本比例为 0.02 的总体,有多大的可能性其比例真的是 0.03 呢?为了回答这个问题,我们计算检验统计量,或者说样本统计和假定的总体参数之间的偏移幅度。标准误差远离均值的数量用 z 分数表示,我们可以计算样本统计量距离总体均值有多少个 z 分数。 公式如下:

先计算零假设的标准误差,它等于 0.03 乘以 0.97 再除以 1000 ,取平方根,大约是 0.005 。因为我们的检验统计量是 0.02 减去 0.03 ,除以 0.005 ,等于 -1.85 。这意味着当零假设为真时,我们的样本比例落在总体比例 1.85 个标准误差之下。 这是否足以拒绝零假设呢?

基于这个信息,我们可以查询 z 表格,对应的概率值是 0.0322 ,这个概率值我们称为 P 值 (P-value) 。 P 值告诉我们,基于总体比例是 0.03 的前提,要找到一个比例是 0.02 的样本,可能性是很低的。但是否低到可以拒绝零假设了呢?这取决于我们选择 显著性水平 (significance level) 。在我们实施检验之前,我们需要决定 P 值要达到多小以拒绝零假设。最常用的显著性水平是 0.05 ,这时我们说样本提供了足够的证据拒绝零假设。我们的 P 值是 0.3222 ,小于 0.05 。所以如果我们把显著性水平设置在 0.05 ,我们需要拒绝零假设。这也被我们称为 拒绝域 (reject region)

形成拒绝域边界的临界 z 值是 -1.64 ,你可以通过查询 z 表格得到它,它对应 0.05 概率的左尾。我们的检验统计量是 -1.85 ,落在拒绝域内。因此我们需要拒绝零假设,并且得出结论:美国有水肺潜水经历的人的比例低于 0.03 。我们说,这个结论是 统计显著的 (statistically significant)

在这个例子中,我们的检验基于备选假设是 $ \pi\leq0.03 $ 。因此,我们只聚焦在抽样分布的一边 —— 左边。这叫做 单尾检验 (one-tailed test) 。那如果我们的备选检验是 $ \pi\neq0.03 $ 呢?如果是那样的话,我们将不再只聚焦在分布的左边,而分布的两边。这种检验叫做 双尾检验 (two-tailed test)

如果我们还是采用 0.05 作为显著性水平,这意味着左边对应的累积概率是 0.025 ,右边也是。同样可以查询 z 表得到,对应的拒绝域的临界点分别是 -1.96 和 1.96 。现在,我们的检验统计量 -1.85 不再落在拒绝域内,意味着我们不能再拒绝零假设 $ \pi = 0.03 $ 。这说明,选择单尾或者双尾检验,对于结论有重大的差别。实践中,双尾检验要常用的多。我的建议是,只有你有非常好的理论依据时才使用单尾检验。

现在,让我们来改变显著性水平,看看会发生什么。比如,我们可以显著性水平设置为 0.01 ,这意味着我们在 P 值小于 0.01 时拒绝零假设。如果做单尾检验, 0.01 的显著性水平对于 -2.33 。

在我们的例子中,检验统计量没有落在拒绝域,因此不拒绝零假设。

小结

如你所见,选择单尾或者双尾检验,会强烈地改变结果。需要记住的是,大部分单尾或者双尾检验都是基于 0.05 的显著性水平。

关于均值的检验

你好奇潜水者会在水下待多长时间吗?这个时间取决于他们的氧气罐,经验,潜水深度以及许多其他因素。假设你有理由期望美国潜水者在携带平均水平的氧气罐下潜到平均深度,可以待在水下超过 60 分钟,并且假设你也接触到了 100 个有经验的美国水肺潜水者,测量了他们在携带平均水平的氧气罐待在平均深度下的时长。这个样本的均值是 62 分钟,标准差是 5 分钟。

你预期潜水者可以在水下待超过 60 分钟,这导致了下面这样一个零假设: $ \mu = 60 $ ,备选假设是 $ \mu\geq60 $ 。我们实施一个关于总体均值的显著性检验,抽样分布如下:

这是一个均值等于 60 的样本均值的抽样分布, 60 是零假设的值。那么基于这样一个总体,一个样本的均值等于 60 的可能性有多大呢? 同样,为了回答这个问题,我们计算检验统计量,它是样本均值偏离总体均值的标准误差。你可能记得如何计算标准误差 —— 我们需要用总体的标准差,因为我们不知道这个值,需要用样本标准差估计。因为这隐含着额外的误差,我们引入 t 分布来取代 z 分布。

我们的检验统计量是通过下面的公式计算:

由样本均值减去零假设的均值,然后除以样本均值的标准误差。标准误差等于样本标准差除以样本容量的平方根。

我们先计算出标准误差, 5 除以 100 的平方根,得 0.5 。 62 减去 60 ,再除以 0.5 ,得到 4 。这是否足以拒绝零假设呢?仍然取决于显著性水平。让我们引入最常用的显著性水平 0.05 。做单尾检验,查询 t 表,临界值是 1.67 。

注意到我们的自由度是 99 ,但表里向下最接近的是 60 ,我们需要查看 $ t{90\%} $ ,因为右尾累积概率 0.05 。你需要记住, $ t{90\%} $ 代表置信水平为 90% ,也就表示分布的两尾加起来有 10% ,左右尾各 0.05 。

结果如下,我们的检验统计量 4 落在拒绝域内,意味着我们需要拒绝总体均值是 60 分钟的零假设。

我们可以总结,平均情况下,有经验的美国潜水者携带平均的氧气量潜到平均的深度,能够在水下待超过 60 分钟。如果我们的期望并不是超过 60 分钟,而是不等于 60 分钟呢?

这种情况下,我们做双尾检验。假设显著性水平设置为 0.01 ,左尾和右尾的累积概率分别为 0.005 。查表,对应的临界值分别为 -2.66 和 2.66 ,而我们的检验统计量是 4 。因此,我们还是要拒绝零假设,并对我们的发现做统计显著的结论。

因为我们现在做了双尾检验,所以我们的临时结论现在变成了有经验的美国潜水者在携带平均氧气量,潜到平均深度后,能待在水下的平均时间不等于 60 分钟。


Linkedin
Plus
Share
Class
Send
Send
Pin