欢迎关注微信公众号「Swift 花园」
还是前面的新生儿父母睡觉减少时长的例子,由于我们无法去询问你家乡所有的年轻父母。我们采取简单随机抽样。一个很关键的问题是 —— 样本应该取多大。应该是 50 个就够了?或者 至少 300 个或者 1000 个?
这一节中,我们将分布讨论对均值和比例感兴趣的不同情况。
先从均值开始。样本容量主要取决于三个因素。首先是你想要的精度。记得吗,置信区间是通过点估计加减一个误差界限来得到的。你允许多大的误差界限,如果你希望它越小,那么你的样本容量就得越大。其次,你的样本容量还依赖你想要的置信水平。越大的置信水平,需要越大的样本容量。最后,数据的变异性也影响样本容量的选择。你的变量的标准差越大,你需要的样本容量也越大。公式如下:
n 代表样本容量,m 代表误差界限,$ \sigma $ 代表总体的标准差, z 代表 z 分数。显而易见,你不知道总体的标准差,而且你还没抽取样本也不知道样本的标准差。所以,你需要利用 合理的猜测 (educated guess) 来估计一个值。
让我来演示这个过程是怎么样的。想象我们想要 95% 的置信水平,对应这个置信水平的 z 分数是 1.96 ,并且我不希望误差界限宽过 0.3 小时,就取 0.3 小时吧。现在我们可以填完这个公式的一部分了。现在我们需要对 $ \sigma $ 进行合理猜测了。如果已经存在这方面的研究而且你知道变量的标准差,可以简单地采纳这个标准差。但是,如果这样一个研究之前并未做过,就必须靠我们自己的猜测。我先假定某些父母根本没法睡,某些父母睡觉少于 5 个小时,并且父母们也不可能睡的比之前还多。因此,我们假定变量服从正态分布, 95% 的父母睡觉时间介于 0 到 5 个小时之间。均值是 2.5 小时,标准差是 1.25 小时。毕竟, 95% 是落在均值左右两个标准差范围内,两个标准差等于 2.5 ,那么一个标准差就是 1.25 。我们用这组数字完成公式,得到 66.69 ,取整,得出结论我们需要 67 个受试者。
对于比例感兴趣而不是均值的情况,也可以采取类似的方式。假设我们想知道新生儿在换尿布时便便的比例,我想要 99% 的置信水平,误差界限 0.10 。公式非常相似:
m 是 0.10 ,z 可由查表得 2.58 ,它对应 99% 置信水平。我们不知道的是 p 。还是采用合理的猜测,或者采用一种被称为 安全方法 (safe approach) 的方式。你会发现 $ p (1-p) $ 的最大值是 0.25 ,它发生在 p = 0.5 的时候,于是我们用 p = 0.5 完成公式,0.5 乘以 0.5 乘以 2.58 的平方除以 0.10 的平方,得到 166.41 ,即 167 位受试者。
在理想世界中,你可以去寻求大样本,比如说 1000 位受试者或者更多。但是,在现实世界中,我们的时间有限,资源有限,无法抽取大样本。因此,计算所需的样本容量可以帮助我们把成本降到最低。