S05E05 核心讨论:多个随机变量的主题

1.引入多个随机变量

在一个试验中经常要涉及到几个随机变量,所谓多个随机变量是指在同一个试验结果之下产生的多个随机变量。这些随机变量的取值是由试验结果确定的,因此它们的取值相互联系,这里我们先以离散型随机变量为例,将离散型随机变量的分布列和期望推广到多个随机变量的情况,并且进一步在次基础上再次讨论条件和独立的重要概念。

好了,此刻,我们假设试验中不再只有一个随机变量,而是两个随机变量 $X$ 和 $Y$,同时描述他们俩的取值概率,我们用什么方式?

2.联合分布列

这里引入了联合分布列的概念,我们用 $p_{X,Y}$ 表示,设 $(x,y)$ 是 $X$ 和 $Y$ 的可能取值,因此对应的 $(x,y)$ 的概率质量定义为事件 $\{X=x,Y=y\}$ 的概率。

$P_{X,Y}(x,y)=P(X=x,Y=y)$,也就是同时满足事件 $\{X=x\}$ 且 $\{Y=y\}$ 的概率,那么首先,我们来实际看一个联合分布列的表示。

很明显,我们可以用一个二维表格来表示随机变量 $X$ 和 $Y$ 的联合分布列:

从这张表出发,我们就可以把联合分布列中所有的知识点都梳理一遍了。

第一,我们可以从图中获得随机变量 $X$ 和 $Y$ 任意一组取值的联合概率,例如:
$P_{X,Y}(x_3,y_2)=P(X=x_3, Y=y_2)=3/20$

第二,对于由$X$和$Y$构成的任意事件集合也是一样,例如我们定义事件集合 $A=\{(x_1,y_2),(x_3,y_2),(x_4,y_4)\}$,那么很显然直接从联合分布列中可以计算出事件集合的总概率:

$P((X,Y)\in A)=\sum_{(x,y)\in A}{p_{X,Y}(x,y)}=1/20+3/20+1/20=5/20$

第三,也是最朴实的一点,我们把二维表中所有的联合概率相加,得到的结果必然是1,这也满足概率的归一性。

3.边缘分布列

如果我们把事件集合再设置的讲究一些,例如我们把事件集合 $A$ 设置为表中的第一列,即 $A=\{(x_1,y_1),(x_1,y_2),(x_1,y_3)\}$,我们计算出来的事件集合 $A$ 的总概率,也就是概率 $p_X(x_1)=P(X=x_1)$,这里我们称之为边缘概率:

$P_X(x_1)=1/20+1/20+1/20+0=3/20$

当然,如果我们把随机变量 $X$ 所有取值的边缘概率都计算出来,就能得到随机变量 $X$ 的边缘分布列:

$p_X(x)=P(X=x)=\sum_{y}{P(X=x,Y=y)}=\sum_{y}{P_{X,Y}(x,y)}$

看着公式头疼对吧,简单点,我们先求随机变量 $X$ 每一个取值的边缘概率,就是把对应列的联合概率全部相加,然后把 $X=x_i$ 的所有边缘概率放在一起,就是边缘分布列。

$x_1$ $x_2$ $x_3$ $x_4$
$P_X(x)$ $3/20$ $3/20$ $8/20$ $6/20$

当然,随机变量 $Y$ 的边缘分布也是同理:

$p_Y(y)=P(Y=y)=\sum_{x}{P(X=x,Y=y)}=\sum_{x}{P_{X,Y}(x,y)}$,这里我们就不再赘述了。

边缘概率和边缘分布列的“边缘”是什么含义?一句话描述就是,随机变量 $X$ 的边缘分布列,及其任意一个边缘概率的取值,都是只与自己有关,而与其他的随机变量(这里是 $Y$)无关了。

而对应的联合分布列和联合概率中的联合二字,意思也很明显,这里面的取值需由所有的随机变量,即由随机变量 $X$ 和 $Y$ 共同决定。

4.条件分布列

在前面我们学习了,条件可以给某些事件提供补充信息,由于随机变量的取值也是一种事件,因此同样的,条件也可以对随机变量取某些值提供补充信息。因此我们是不是能引入随机变量的条件分布列呢?当然是可以的。

条件可以指某个事件的发生,当然也可以包含其他随机变量的取值。

我们还是来看一个风格上我们非常熟悉的图:

因此,在某个事件 $A$ 发生的情况下,随机变量 $X$ 发生的条件分布列很容易给出,还记得条件概率的表达式么,就直接套用过来就可以了。

$p_{X|A}(x)=P(X=x|A)=\frac{P(\{X=x\}\cap A)}{P(A)}$

是不是很熟悉,但是有些关键点,我还是要再提一下,首先对于随机变量 $X$ 不同的取值 $x_1,x_2,x_3,...,x_n$,$\{X=x\}\cap A$ 彼此之间互不相容,并且他们的并集是整个事件 $A$,当然上面的示意图里,随机变量 $X$ 的取值没有完全覆盖事件 $A$,因为这只是一个示例而已,没有画完全,举例而已。

对于这个事件 $A$,我们知道,他既可以对应某个事件的发生,也可以对应另外一个随机变量的具体取值。我们这里重点讨论给定另一个随机变量的值的条件下的随机变量。

我们还是回到试验中,试验中有两个随机变量 $X$ 和 $Y$,我们假定的条件就是随机变量 $Y$ 已经取定了一个具体的值 $y$,那么意味着,这个 $y$ 值的选取可能会提供关于随机变量 $X$ 取值的部分信息,反映在我们的条件分布列 $p_{X|Y}$,对应来看条件分布列中的事件 $A$ 就是随机变量的取值 $\{Y=y\}$。

那么好,此时关键部分就来了,我们把上面的条件分布列的定义式$p_{X|A}(x)=P(X=x|A)=\frac{P(\{X=x\}\cap A)}{P(A)}$ 中的条件事件 $A$ ,替换成随机变量的取值 $Y=y$,就有了:

$p_{X|Y}(x|y)=P(X=x|Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)}=\frac{P_{X,Y}(x,y)}{p_Y(y)}$

通过这个公式,我们可以把 $\{Y=y\}$ 条件下,随机变量 $X$ 所有的取值条件概率计算出来,就得到了在事件 $\{Y=y\}$ 之下的随机变量 $X$ 的条件分布列。

最关键的其实不是这个式子,大家有没有回想起第一节中我们重点分析过的贝叶斯公式,同样的我们把上面的式子整理一下,有:

$p_{X,Y}(x,y)=p_Y(y)p_{X|Y}(x|y)$

$p_{X,Y}(x,y)=p_X(x)p_{Y|X}(y|x)$

这组公式非常重要,他把多个随机变量的联合概率、边缘概率和条件概率非常完美的结合在了一起,串联了我们这节的核心内容。

我们还是举上面的例子,具体来计算验证一下:

我们来看看满足 $\{Y=y_2\}$ 的条件下,随机变量 $X$ 的条件分布列:

首先计算边缘概率 $p_Y(y_2)=1/20+1/20+3/20+2/20=7/20$

$p_{X|Y}(x_1|y_2)=\frac{p_{X,Y}(x_1,y_2)}{p_Y(y_2)}=\frac{1/20}{7/20}=1/7$

$p_{X|Y}(x_2|y_2)=\frac{p_{X,Y}(x_2,y_2)}{p_Y(y_2)}=\frac{1/20}{7/20}=1/7$

$p_{X|Y}(x_3|y_2)=\frac{p_{X,Y}(x_3,y_2)}{p_Y(y_2)}=\frac{3/20}{7/20}=3/7$

$p_{X|Y}(x_4|y_2)=\frac{p_{X,Y}(x_4,y_2)}{p_Y(y_2)}=\frac{2/20}{7/20}=2/7$

top Created with Sketch.