欢迎关注微信公众号「Swift 花园」

随机变量和概率分布

随机变量的随机性其实并不像它的名字传递的那样多。这一节教程中，我将通过随机变量的可能结果和它们对应的概率来描述 概率分布 (probability distribution) 。换句话说，随机分布使随机性具体化，并且提供了一条在计算中使用随机变量的道路。当我们观察个体或者对象的时候，我们可以关注每个个体的若干个属性，这些属性就叫做变量。

现在，想象你收集了一份数据，并且决定重复实验。你能够找到相同的试验个体来测量变量，或者能找到相近的个体。不管采用哪一种，你会发现你的变量的值每次都不一样。这就是所谓的变量。举个例子，你测量一个人的身高几次，每次的结果可能会有几毫米到 1 厘米的偏离，这取决于你测量的时间在一天中的时刻，你的测量设备的精度，等等。

通常我们预料变量的值具有随机的变异性。如果这种概率的随机性是中肯的，则这个变量被称为 随机变量 (random variable) 。随机变量可以有一组可能的值，每个值都和概率关联。因此，如果随机变量的样本足够大，不同值的相对频率就接近概率。为了让表达更清晰，让我们用斜体的大写字母来表示随机变量，小写字母来表示它取到的值。

即 X 为随机变量，$ x_1, x_2, x_3, … $ 为随机变量的值。

随机变量有两种，一种是 离散的 (discrete) ，一种是 连续的 (continuous) 。离散随机变量可以有一组可数数量的不同值，比如 0 / 1 / 2 / 3 。实际上，如果一个随机变量只能取得有限数量的不同值，那它必定是离散的。离散随机变量的例子很多，比如一个家庭里小孩的数量。连续随机变量则可以取得无限数量的可能值。它通常是测量。为了演示无限性，假设一个身高值测出来是 3.1 米，如果换更精确的测量仪器，也许能测到 3.14 米。更精确的仪器，也许还能测到 3.145 米。换言之，通过更精确的测量，或者放大操作，无限数量的结果是可能的。年龄，温度，速度，这些都可以是连续随机变量的例子。

随机变量的值可以很方便地通过随机分布来呈现。随机分布的呈现形式可以是表格，图或者数学方程，并且是通过随机变量的每个取值关联的概率列表来定义的。

根据定义，每个随机变量都有一个概率分布，离散随机变量的概率分布叫 概率质量函数 ，而连续随机变量的概率分布叫概率密度函数。至于为什么有这种区别，稍后解释。

对于离散随机变量来说，通过列出每种可能的结果，容易看出概率。假设变量 X 接收 1, 2, 3, 或者 4 。那么下面这张表就列出了每种结果的概率。分布还可以用概率直方图来描述，这跟频率表或者频率直方图的用法如出一撤。

对于连续随机变量，可以采用图表。下图中的概率分布并没有在 y 轴上给出概率，而给出了 概率密度 (probability density) 。为了获得概率，你需要考虑曲线某个区间下方的区域而非曲线的高度。概率就是由这块区域的面积给出的。

y 轴之所以要采用密度是因为你的随机变量单位可能会改变。比如，你表示的长度由米改成厘米，这个时候密度相应改变，而区域的面积不应该变化。

小结

随机变量是一个由随机现象产生多种可能结果的变量。当结果有限可数时，它是离散的；当结果数量无限时，它是连续的。
概率分布为随机变量可取得的每个值指定概率。离散随机变量的概率分布叫概率质量函数，而连续随机变量的概率分布叫概率密度函数，它的概率值时通过概率曲线指定区间下的面积来获得的。
概率密度函数可以以表格、图表或者方程的形式呈现。

累积概率分布

你已经了解了基本的概率规则，也了解了概率分布，是时候向你介绍累积概率分布了。
首先看看下面这个简单的离散随机分布。你能找出 X 的值是 2 或者 3 的概率吗？

答案可以通过把 x 是 2 或者 x 是 3 的概率相加得到。因此这个值是 0.7 。

表格上列出的概率，或者说概率质量函数 x 轴上的概率，全部都是互斥。因此任意概率的并集实际上就是这些概率值之和。相似的，根据补集的规则， X 大于等于 1 的概率等于 1 减去 x 是 1 的概率，也就是 0.9 。

现在让我们往下接着走。基于概率分布，我们很容易计算出小于或者等于某个值的概率。举个例子， x
小于或者等于 1 的概率是 0.1 。 x 小于或者等于 2 的概率是 0.1 加上 0.3 ，也就是 0.4 。

这种概率被称为 累积概率 (cumulative probability) 。全部累积概率的列表被称为 累积概率分布 (cumulative probability distribution) ，或者 累积分布函数 (cumulative distribution function) 。这个累积概率分布的概率直方图可以像下面这样：

对于概率密度函数也是如此。例如，下面这个概率密度函数，对应旁边的累积分布。

有趣的部分是， y 变量从概率密度变成了概率。

如你所见，累积概率函数从 0 开始，持续增加到最大值 1 。所有结果的概率之和等于 1 。累积分布，特别是它的图形化形式，十分便于回答两个问题。

你可以在 x 轴上选择随机变量的某个值，然后在 y 轴上找到观察值的哪一部分小于或等于该值。或者相反，你可以在 y 轴上选择一个分数，然后在 x 轴上找到相应的阈值。对于这个阈值，有一个简短的叫法是 分位 (quantile) 。举个例子，对于累积概率 0.1 以下的阈值，就称为 0.1 分位。因此累积概率分布实际上展示了随机变量的分位。举个例子，你会发现，对于累积概率 0.5 ，你找到其实就是随机变量的中位数，对于累积概率 0.25 ，你找到是随机变量的四分位。