【Python讲概率】S05E08 统计推断的基本框架和导引

1.进入统计学

从这一讲开始,我们进入到统计推断的主题。

统计学使用概率论的基本方法,研究怎样通过试验收集带有随机误差的样本数据,并在设定的统计模型之下,进行后续的研究工作,主要分为两大类:

第一类是对这些已有的样本数据进行分析,计算他们的一些统计特征,比如样本均值、方差等等,即描述统计的范畴。

第二类是更重要的,是通过这些已有的样本数据,对整个未知的总体进行推断,估计出总体当中我们感兴趣的未知参数值,即统计推断的工作,这是我们重点关注的内容。

那我们为什么需要关注统计推断的方法呢?因为,当我们需要对一个未知的对象进行分析时,一般需要通过获取数据来分析这个对象,但在现实当中,我们只能获取一部分数据而无法获取总体的全部数据。而统计推断研究的就是通过部分的样本数据来推断总体统计特征的方法。

上面的描述当中,有很多的术语和概念,为了便于大家理解,我们来举一个统计推断的例子

2.统计推断的例子

有一家企业生产电子元器件,这些元器件的寿命服从指数分布,那么我们如何估计这些元器件的平均寿命呢?如果我们知道这个指数分布的参数$\lambda$的值,则可以马上回答这个问题:即平均寿命$=\frac{1}{\lambda}$ 。但是现实往往是残忍的,我们在实际当中根本就不可能知道$\lambda$的值。

于是,我们只好从工厂所有生成的元器件当中随机抽取出$n$个元器件,并测出其寿命分别为$X_1,X_2,...,X_n$。注意此处有一个重要的前提,那就是我们需要保证这一大批元器件当中,每一个元器件都有等概率被抽取的机会。

这时候,当我们有了数据$X_1,X_2,...,X_n$之后,一个自然而然的想法就是:通过计算,我们用这些样本数据的平均值$\bar{X}=\frac{X_1+X_2+...+X_n}{n}$去作为所有元器件未知平均寿命$\frac{1}{\lambda}$的一个估计值。当然, $\bar{X}$可能大概率恰好不等于$\frac{1}{\lambda}$。不过请不要担心,我们在实际的工程和研究当中,本来也不可能要求他们做到完全相等,只要具体满足一些性质和要求就可以了,那么具体应该满足什么要求,我们下面接着慢慢讲。

3.统计推断中的一些重要概念

3.1.统计推断的过程总结

上面描述的就是统计推断中的一个简单的参数估计问题,因为$\lambda$是元件寿命这个指数分布中的一个未知参数,而我们的目标是要估计由参数$\lambda$决定的一个量,即$\frac{1}{\lambda}$,也可以把估计的目标改为是要求估计参数$\lambda$本身。然后再用参数$\lambda$的估计值,回过头来计算我们想要知道的所有元器件的平均寿命,即:$平均寿命=\frac{1}{\lambda}$。

下面,我们就结合例子来讲讲总体、样本的具体概念。

3.2.总体的概念

总体是指与所研究的问题有关的对象全体构成的集合。在上面的那个例子当中,工厂生产的所有电子元器件就是问题的总体,而其中每一个元器件就是一个个的个体,所有这些个体构成了问题的总体。

我们的电子元器件总体的寿命分布为指数分布,总体分布的概率模型不同,分析的方法也就不同,赋有一定概率分布的总体也称之为统计总体。因此,当总体分布为指数分布时,称之为指数分布总体,同样的,当总体分布为正态分布时,就称为是正态分布总体。

别以为这样就完了,其实总体的概念中还有许多概念值得深挖。

一方面是,虽然我们假设了电子元器件总体的寿命服从指数分布,但是其中的参数值$\lambda$并没有指定,那么这个未知的$\lambda$原则上是可以取$0 - \infty$内的任何值的。因此更正确的说法是,总体分布是一个概率分布族的一员。像指数分布这种,只包括一个参数$\lambda$的,称作是单参数分布族,而像正态分布$N(\mu,\sigma^2)$这种包含两个参数的分布,则是一个两参数分布族

另一方面:在很多实际情况下,我们只能假定总体有一定的概率分布,但是无法明确其具体的数学形式,更不用说表示成我们熟悉的标准分布的形式了。当总体分布不能通过若干个未知参数表达出来的时候,这种情况称之为是非参数总体。对于非参数总体,同样存在统计推断的问题,例如去估计平均值、方差等重要的统计量,这是实际中更加常见的工作。

3.3.样本的概念:

有了总体的概念,我们再来看看样本。样本就是按照一定的规定,从总体中抽取出来的一部分个体,所谓“按照一定的规定”,就是指总体中的每一个个体拥有同等的被抽取的机会。

样本$X_1,X_2,...,X_n$中的$n$称为是样本大小或样本容量。我们也可以把$X_1,X_2,...,X_n$称之为是一组样本,而$X_i$称为是其中的第$i$个样本。

一般而言,如果总体当中包含了大量的甚至是无限多个的个体,抽掉$1$个或$n$个个体,对总体的分布几乎没有影响,因此样本$X_1,X_2,...,X_n$是独立同分布的,他们的公共分布就是总体分布。这是应用上最为常见的情形,也是我们主要的研究目标。但是如果当总体所含的个体数目不太大时,情况就不同了。放回式抽样还是不放回抽样也要作为一个要素加入到统计模型的内容中来。

总结一下,在无限(或样本量极大)总体或者是在有限总体而抽样有放回的情况下,总体分布完全决定了样本的分布。

3.4.统计量

完全由样本所决定的量叫做统计量,这里意味着,统计量只依赖于样本,而不依赖于任何其他未知的量,尤其是不能依赖于总体分布中所包含的未知参数。

很拗口吧,还是来看个例子:

例如我们从正态总体$N(\mu,\sigma^2)$中抽取出样本$X_1,X_2,...,X_n$,那么样本均值$\bar{X}=\frac{X_1+X_2+...+X_n}{n}$就是一个统计量,因为他完全由样本$X_1,X_2,...,X_n$所决定。但是如果式子中包含了$\mu$或者$\sigma$,类似于$\bar{X}-\mu$这种,就不是统计量了,因为$\mu$是总体的未知参数,$\bar{X}-\mu$并不完全由样本所决定。

这里面的道理很简单,统计量可以看做是对样本的一种加工,他把样本中所含的信息集中起来。目的就是用来估计总体当中的未知参数,如果此时在里面反而还包含了未知参数,显然就失去了意义。

一般而言,我们会使用样本均值$\bar{X}=\frac{X_1+X_2+...+X_n}{n}$去作为总体均值的估计。

那么,如果想了解总体方差$\sigma^2$的情况,则统计量$\bar{X}$就派不上用场了,而应该使用样本方差$S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\bar{X})^2}$
去作为总体方差$\sigma^2$的估计。

3.5.样本矩

推而广之,有一类重要的统计量叫做样本矩,分为样本原点矩和样本中心矩,对于样本$X_1,X_2,...,X_n$:

$a_k=\frac{X_1^k+X_2^k+...+X_n^k}{n}$称为$k$阶样本原点矩,其中的一阶样本原点矩$a_1=\frac{X_1+X_2+...+X_n}{n}$是一个非常重要的样本原点矩,也就是样本均值 。

而$m_k=\frac{\sum_{i=1}^{n}{(X_i-\bar{X})^k}}{n}$ ,则被称为是$k$阶样本中心矩。

4.估计量的偏差与无偏估计

其实看到这个地方,大家一定会有这样一个疑问,那就是为什么作为总体均值估计量的样本均值是$\bar{X}=\frac{X_1+X_2+...+X_n}{n}$,而作为总体方差估计量的样本方差一般使用的是$S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\bar{X})^2}$,为什么是除以$n-1$,而不是除以$n$。

这就涉及到估计的无偏性的问题了,这里我们先不一上来就解释无偏性的定义和概念,先来实际看一个例子吧。

4.1.总体均值的估计

我们做一个小实验,我们从均值为$0$,标准差为$1$的标准正态分布中获取样本,每次获取$100$个样本值,然后按照$\bar{X}=\frac{X_1+X_2+...+X_n}{n}$来计算统计量,我们重复实验$100$万次,把$100$万次得到的统计量绘制成直方图,看看他们的分布。同时计算出这$100$万个估计量的均值(按照大数定理可以认为他就是期望了),并与待估计量,也就是真实的总体均值进行比较。

代码片段:

from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np
import seaborn

seaborn.set()

norm_rv = norm(loc=0, scale=1)
x = np.linspace(-1, 1, 1000)

sample_n = 100
x_array = []
for i in range(1000000):
    norm_rvs = norm_rv.rvs(size=sample_n)
    x_bar = sum(norm_rvs) / float(sample_n)
    x_array.append(x_bar)

print(np.mean(x_array))
plt.hist(x_array, bins=100, normed=True, alpha=0.6)
plt.axvline(0, ymax=0.8, color='r')
plt.gca().axes.set_xlim(-0.4, 0.4)
plt.show()

运行结果:

8.422755440900372e-06

图1.总体均值估计量的分布

图1.总体均值估计量的分布

很显然,作为估计值的随机样本统计量(在这个例子中就是$100$个个体的样本均值)肯定不可能和未知参数(总体的均值$\mu$)完全相等,他们之间一定存在着非零的估计误差

top Created with Sketch.