【概率统计】S05E04连续型随机变量的分布与度量

在之前的章节中,我们介绍了离散型随机变量,实际上,取值于连续区域的随机变量也是十分普遍的,比如汽车行驶的速度、设备连续正常运行的时间等等,在实际应用中非常广泛,连续型随机变量能够刻画一些离散型随机变量无法描述的问题。

1.概率密度函数

随机变量由离散变为了实轴上的连续值,那么与离散型随机变量的分布列和PMF函数相对应的,我们就有了连续型随机变量上的新概念,也就是所谓的概率密度函数PDF,二者在概念上是相对应的。

我们回顾一下前面讲分布列时的一张图

通过将三个事件对应的概率进行相加,就能得到这个事件集合所对应的总的概率。

$P(X\in S)=\sum_{x\in S}{p_X(x)}=P_X(1)+P_X(2)+P_X(3)$。

而很明显的一点不同是,连续型随机变量的个数是无限的、不可数的,不是像这样直接相加,而是在实轴的区间范围内,对概率密度函数进行积分。

这里,我们要对概率密度函数的特殊性进行强调:

第一:单个点的概率密度函数PDF取值 $f_X(x)$ 不是概率,而是概率律,因此他的取值是可以大于1的。

第二:连续型随机变量的概率,我们一般讨论的是在一个区域内取值的概率,而不是某个单点的概率,连续区间内讨论单个点是没有意义的。

连续型随机变量在一个区间内取值的概率,我们可以用积分来计算解决,例如上图中,随机变量在 $[a,b]$ 区间内的概率即为:$P(a\leq X \leq b)=\int_{a}^{b} f_X(x)dx$ ,也就是图中阴影区间内的面积。因此这也进一步印证了上面一条结论,也就是说我们关注在单个点而不是区间的概率计算,比如 $x=a$,就是$P(a\leq X \leq a)=\int_{a}^{a} f_X(x)dx=0$,因此区间两端是否取等也无关紧要了:

$P(a\leq X\leq b)=P(a< X\leq b)=P(a\leq X< b)=P(a< X< b)$

同样的进行类比,连续型随机变量概率的非负性和归一性体现在:

对一切的 $x$ 都有 $f_X(x)\geq 0$ ;
归一化体现在 $P(-\infty\leq X \leq \infty)=\int_{-\infty}^{\infty} f_X(x)dx=1$
$P(a\leq X \leq b)=\int_{-\infty}^{\infty} f_X(x)dx \leq 1$ 满足 $(a\leq b)$

2.连续型随机变量的期望与方差

大家千万不要到了这个连续型的新场景下,就慌了手脚,在离散型随机变量中,我们通过分布列,求得加权的均值,获得了离散型随机变量的期望。

那么在连续型随机变量的场景下,我们死扣定义,期望的 $E[X]$ 的核心是大量独立重复试验中 $X$ 的取值的平均数,那么我们此时将分布列替换成概率密度函数PDF,求和替换成积分就可以了,即:

$E[X]=\int_{-\infty}^{\infty} xf_X(x)dx$

方差也是一样,扣定义:方差是随机变量到期望的距离平方的期望:

$V[X]=E[(X-E[X])^2]=\int_{-\infty}^{\infty} (x-E[X])^2f_X(x)dx$

接下来,我们来看几个非常重要的连续型随机变量的举例:

3.正态分布及正态随机变量

正态分布是连续型随机变量概率分布的一种,你几乎能在各行各业中看到他的身影,自然界中某地多年统计的年降雪量、人类社会中比如某地高三男生平均身高、教育领域中的某地区高考成绩、信号系统中的噪音信号等等,大量现象均按正态形式分布。

正态分布中有两个参数,一个是随机变量的均值 $\mu$,另一个是随机变量的标准差 $\sigma$,他的概率密度函数PDF为:

$f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}$

当我们指定不同的均值和标准差参数后,就能得到不同正态分布的概率密度曲线,正态分布的概率密度曲线形状都是类似的,他们都是关于均值 $\mu$ 对称的钟形曲线,概率密度曲线在离开均值区域后,快速的下降。

这里,我们不得不专门提一句,当均值 $\mu=0$,标准差 $\sigma=1$,我们称之为标准正态随机变量。

还是老规矩,眼见为实,下面我们来观察两组正态随机变量的概率密度函数取值,一组是均值为0,标准差为1的标准正态分布随机变量。另一组,我们取均值为1,标准差为2。

代码片段:

from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np

fig, ax = plt.subplots(1, 1)
norm_0 = norm(loc=0, scale=1)
norm_1 = norm(loc=1, scale=2)

x = np.linspace(-10,10, 1000)
ax.plot(x, norm_0.pdf(x), 'r-', lw=3, alpha=0.6, label='loc=0, scale=1')
ax.plot(x, norm_1.pdf(x), 'b-', lw=3, alpha=0.6, label='loc=1, scale=2')
ax.legend(loc='best', frameon=False)

plt.show()

运行结果:

这里,我多一句嘴,在构造正态分布随机变量时,均值用参数loc来描述,方差用参数scale来描述。

同样的,我们还可以通过重复随机取值,来观察模拟试验的情况

代码片段:

from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np

fig, ax = plt.subplots(1, 1)
norm_rv = norm(loc=2, scale=2)
norm_rvs = norm_rv.rvs(size=100000)
x = np.linspace(-10, 10, 1000)
ax.plot(x, norm_rv.pdf(x), 'r-', lw=3, alpha=0.6)
ax.hist(norm_rvs, normed=True, alpha=0.5)

plt.show()

运行结果:

4.指数分布及指数随机变量

最后我们再来看看我们要讲的第二种连续型随机变量,指数随机变量。指数随机变量的用处非常广泛,他一般用来表征直到某件事情发生为止所用的时间。

比如,从现在你观察的时间开始算起,一台仪器设备的使用寿命终止还剩的时间、一个灯泡直到用坏了还剩的时间、陨石掉入地球沙漠还需要的时间,等等。

top Created with Sketch.