欢迎关注微信公众号「Swift 花园」

集合基础 —— 理论概念

在这篇教程中,我将介绍一些重要概念,它们是关于 集合 (set) ,即项的数据集。这对于理解概念以及得出概率的计算规则十分有用。同时,集合的特殊性还在于它不仅可用于概率演算,还用在逻辑学中。

让我们开始吧。如之前的教程中提到的,样本空间是随机现象所有结果的数据集。举个例子,抛一枚硬币两次,有四种可能的结果。事件是样本空间的子集。例如,最后一次抛硬币你得到正面朝上。

我们看到,一个样本空间可以两个或更多结果完全不同的事件。比如,抛硬币两次,0 次正面朝上,1 次正面朝上, 2 次正面朝上。它们被称为 互斥 (disjoint) 的事件。另外一个术语叫 互不相容 (mutually exclusive)

有一对特殊的互斥事件,某个事件和它的对立面 (即这个事件不发生的事件)。这种上下文中,对立的事件被称为 补集 (complement) 。比如,这里可以是没有正面朝上和其他三种情况互为补集。

你也可以有多个事件共同填满完整的样本空间。这些事件被称为 完全穷尽 (collectively exhaustive) 事件。如果它们彼此不重叠,就是 相互独立,完全穷尽 (disjoint collectively exhaustive) 。互斥事件相关联的概率之和小于或者等于 1 ,完全穷尽事件的概率之和等于 1 。

直觉上很容易理解这些概念,它们可以通过 文氏图 (Venn diagrams) 来表达。文氏图通过简单的几何形状来呈现集合或者集合的部分。

阅读全文 »

欢迎关注微信公众号「Swift 花园」

样本空间 (sample space)

海滩是一个多变的环境 —— 尤其当天气很好的时候,有许多人,需要可以做的事情和可以看的风景。这一节教程里,海滩是我们的背景。我将向你解释几个可以帮助我们找到概率的概念,以及一个可视化的辅助工具 —— 树形图 (tree diagram)

这是一个温暖的下午,你可以来点下午茶。幸运的是,你所在的海滩上,有一个卖下午茶的摊位。不过,茶点几乎快卖完了,只剩下一种类型的冰淇淋和两瓶软饮料。

有点不走运的是,有三个人排在你前面。不过还有个好消息是,摊主只卖给每个顾客一件东西。由于你实在很渴望喝到眼前这冰爽的饮料,你不禁开始寻思,“我喝到饮料的机会有多大呢?”

注意,你并不清楚其他顾客会做出的决定,所以他们的购买对你来说全部都是随机事件。第一个顾客可能买饮料或者冰淇淋,在这件事发生之后,第二个顾客拥有同样的选项,然后轮到第三个顾客。如果前面的两位顾客都买了饮料,那她就只剩冰淇淋可以选,否则的话,她也还有两个选项。

通过下面这幅树形图,你排序了所有可能的随机试验结果。看起来有 7 种可能的组合。这里所有随机现象的里列表我们称为 样本空间 (sample space)

阅读全文 »

欢迎关注微信公众号「Swift 花园」

随机性 (randomness)

识别和理解随机性,和推断它是一样重要的技能。它们不仅在统计分析中有用,对于每天发生在我们身边的日常事物,同样有意义。这篇教程中,我将向你解释为什么人们如此不擅长应对随机性。

想象你在海滩上看着海浪翻滚,然后你注意到一枚美丽的贝壳,它的个头和形状明显地异于周围其它贝壳。于是你想想看附近还有有没有这种贝壳。这是一项无法预见的行动计划 —— 贝壳可能是随机分布在这个巨大的海滩上的。因此,你找到另外一枚同类贝壳的时间是不确定的,甚至你都可能找不到一枚相似的。

你开始思考这件事,然后你意识到随机性几乎在日常生活中无处不在。所以,无怪乎我们有丰富的词汇来描述它,比如不确定性、机会、风险、可能性。还有,变异性和不确定性的程度能够非常精细地描述随机性。

看看下面这组词汇:罕有、少见、有时、普通、频繁、经常。有意思的是,某件事是否随机,不仅是现象自身的特性,也很大程度上取决于我们对它的认识。假如你之前就来过这片海滩,你可能已经发现过这种贝壳,从而改变这一次的搜索策略,以便增加找到更多这种贝壳的机会。你搜索的尺度也有关系,如果在很小的区域做一个短暂的搜索,可能不是很有把握找到新贝壳,但是搜索时间延长,搜索区域扩大,找到机会就会增大。

尽管有这么多的词汇,以及我们在日常经验中熟记随机性的能力,我们其实一点都不擅长量化地评估随机性。一方面,我们在真实的随机数据中寻找各种 “模式”。你一定听过一个词叫 “宿命”。另一方面,我们自身又无法制造随机熟记。有一个失败尝试的案例 —— 下图中左边的通过拼接得到的贝壳随机分布的地图,实际上是分布太规则的。而右边那幅是现实的随机分布模式,看起来有更多聚集在一起的 “簇”。

阅读全文 »

欢迎关注微信公众号「Swift 花园」

回归 —— 找到 “那根线”!

最近的一项研究表明,吃大量的巧克力可能是个好主意。

这个散点图展示了一个国家每个人年均消费的巧克力数量。可以看出,一年中人们吃的巧克力数量,跟这个国家每百万人口中的诺贝尔奖获得者人数,呈正相关性。

注意,这个散点图里的巧克力消耗量显示为自变量,而诺贝尔奖获得者人数显示为因变量。

散点图里分析的单位是国家。如你所见,相关性很高。实际上,这里的皮尔逊相关系数是 0.93 。这说明,多吃巧克力虽然可能令你发胖,但同时也让你变聪明。皮尔逊相关系数告诉我们,两个连续变量之间的线性相关性有多强,这种线性相关性被显示为一根直线。在我们的案例中,是这条线。

这就是我们所说的 回归线 (regression line) 。在本节教程中,我将告诉你如何找到回归线。重要的是要知道我们如何找到这条线,而不仅仅是因为回归线向你展示了两个变量之间的关系。 找到回归线是许多统计分析的基础。

那么,我们如何找到回归线呢?想象你正在绘制散点图里每一条可能的直线。所以,你像下面这样画了许多可能的线。这是一组数量巨大的线。实际上,这几乎不可能做到。不过,暂时想象你有超能力 —— 你能做到这一点。

阅读全文 »

欢迎关注微信公众号「Swift 花园」

很多人喜欢吃巧克力,但多数人吃巧克力是比较谨慎的。因为吃了太多巧克力,很有可能会增加体重。在这一期的教程中,我将讨论如何使用表格和图表展示 两个变量之间的关系 。这有助于发现两个变量之间是否存在 相关性 (correlation)

列联表 (Contingency Tables)

我们来进一步研究吃巧克力和体重之间的关系。

假设我在我们学校选择了 200 名女学生。她们身高都是一米七。这样,身高就是一个常数,不会影响体重或吃巧克力。让学生报告体重及每周巧克力消费情况。体重可以选择这样几个类别:小于 50 公斤; 50 至 69 公斤; 70 至 89 公斤和 90 公斤或以上。巧克力消费量可以选择这样几个类别:每周少于 50 克;每周 50 至 150 克;每周超过 150 克。

结果如下,这里看到的是 列联表列联表 能够显示 两个定序或定类变量之间的关系 。 它类似于频率表,但主要区别在于 频率表始终只考虑一个变量,而列联表考虑两个变量

阅读全文 »