万物科技 学,以致用

概率论 11. 大数定律

2017-06-20
Geng

一个随机变量序列前 n 项之和, 当n趋近无穷的时候会发生什么呢?

\(X_1\), \(X_2\) … 为独立的同分布的随机变量序列, 每个随机变量的分布均值均为 \(\mu\) , 方差均为 \(\sigma^2\), 我们定义:

为这个随机变量序列前 n 项之和, 那么当n趋近无穷的时候, 会发生什么呢?

首先可知:

然后根据各项之间的独立性可知:

那么当 \(n \to\infty \) 时, \(var(S_n)\)发散.

不过呢, 如果我们计算 \(M_n = \frac {S_n} {n} \) 呢?, 显然:

那么, 我们的任务就是研究一下这个 \(M_n\) 的性质.

什么是 \(M_n\)

首先, \(M_n\) 其实就是独立同分布的随机变量序列的样本均值:

样本就是总体的一部分, 不是总体

那么大数定律要研究的内容, 其实就是这个样本均值的问题.

这个样本均值本身是一个随机变量, 它的标准差称为标准误差(SE). 注意用词不同.

看英文加深理解: The standard deviation(标准差) of sample means is known as the standard error(标准误差) of the mean (SE).

切比雪夫不等式

首先要明确, 上面所说的:

只是一个随机变量序列的一部分, 也就是样本. 那么我们研究的其实是样本将会如何近似总体.

切比雪夫不等式告诉我们:

从这个不等式可以看出, 离均值越远, 可能的概率越小.

弱大数定律

独立同分布的随机变量序列的样本均值, 在大样本的情况下, 有很大概率与随机变量的均值接近.

再次强调, 样本就是总体的一部分, 不是总体

样本均值:

根据切比雪夫不等式, 结合其期望与方差, 可知:

上面不等式可以理解为:当 n 充分大时,\(M_n\) 的分布主要集中在 \(\mu\) 附近。 这个就是弱大数定律

上面动图来自维基百科,它展示了抛大量硬币的过程. 刚开始的时候可能某种颜色多于另一种颜色, 但是随着抛掷次数增多, 两种颜色的比例逐渐接近 1:1.

比如一个选举统计支持率,随机抽选 n 个选民进行民意调查,计算这 n 个选民对某个候选人的支持率 \(M_n\)。将 \(M_n\) 理解为实际支持率 p 的估计值, 那么根据切比雪夫不等式:

注意到选民是否支持这个随机变量 \(X\) 是一个伯努利随机变量, 方差为 \(p(1-p)\), 那么上面不等式变为:

又因为 \(p(1−p)\) 在 \(p=1/2\) 的时候取最大值 1/4, 那么:

如果我们想要调查结果的估计值与真实支持率相差不到 \(\sigma=0.01\) 的概率不超过 0.25, 那么需要 n= 100。可以看出, 随着数量的增大, 相差率会越来越小。在估计值与真实值差距为 0.01之内的概率是 0.95 的话, 样本需要大约 50000 个.

中心极限定理

根据上面的讨论,\(S_n = X_1 + … + X_n = nM_n\) 的方差发散,其分布不收敛。考虑到 \(E[S_n] = n\mu\), \(var(S_n) = n\sigma^2\),

根据中心极限定理, 当 n 很大时:

即当 n 很大时,那么 \(Z_n\) 趋近正态分布

不管是什么分布的独立随机变量, 一般来说只要数量够多,其总和大致是正态分布。这样就省去了我们繁琐的计算, 直接使用正态分布即可。 更准确地说, 大量独立随机变量的和的代数平均值是一个随机变量, 这个随机变量的期望和方差都是有限值, 而且这个随机变量大致是正态分布.

在来看看前面讨论过的选民问题。

根据正态分布的对称性,我们可知:

这里如果根据中心极限定理计算, 当 n 很大时,根据 \(M_n\) 的期望和方差:

那么, 我们需要知道 z 是多少。 显然这个时候我们需要知道 p 是多少才可以计算 z。 我们无法预知 p,怎么办?

当 \( p = 1/2\) 时,标准误差 \( SE = \sqrt { \frac {p(p-1)} {n}} \) 达到最大值 \(\sqrt { \frac 1 {4n}}\), 那么 \(\frac {\epsilon} {SE}\) 达到最小值 \(2 \epsilon \sqrt{n}\),那么:

在估计值与真实值差距为 0.01之内的概率是 0.95 的话, 样本只需要大约 10000 个, 比使用切比雪夫不等式要少。

泊松近似和正态近似

回顾泊松分布, 我们假设可以将时间段分为 n 个时间槽,每个长 1/n,那么当时间槽无限多的时候,就成了泊松分布。但是,我们刚才不是说应该成为正态分布吗?

显然泊松分布和正太分布是不一样的,那么这里肯定是哪里出了问题。

其实,我们在做正态分布近似的时候,有一个隐含条件,那就是 n 个数固定的,时间槽个数固定。但是泊松近似没有这个假设。

一般来说,如果 p 很小,而 n 很大,np 是一个固定值,那么最好使用泊松近似。

如果 p 固定但是 n 趋向无穷,最好使用正态分布近似。

正态分布转标准正态分布与大数定律

X 是正态随机变量, 期望为 \(\mu\) , 方差为 \(\sigma^2\), 将 X 标准化为新的随机变量 Y:

Y 就成为了一个标准正态分布.

注意这个与大数定律的区别

在大数定律里, \(X_1\), \(X_2\) … 为独立的同分布的随机变量序列, 每个随机变量的分布均值均为 \(\mu\) , 方差均为 \(\sigma^2\)

仔细观察, 可见:

  • 正态分布转标准正态分布中, 是将一个随机变量转为了标准正态分布, 这个随机变量的期望和方差已知.

  • 在大数定律中, 是若干个独立同分布的随机变量, 他们每一个有相同的期望和方差.


Similar Posts

Comments

你可以请我喝喝茶,聊聊天,鼓励我

Wechat Pay
wechat

Thanks!