【机器学习】009--极限思维:大数定理与中心极限定理

Posted by ShawnD on August 7, 2020

期望的性质

1)设$C$是常数, 则有$E(C) = C$

2) 设$X$是随机变量, $C$是常数, 则有:

\[E(CX) = CE(X)\]

3) 设$X$和$Y$是任意两个随机变量则有:

\[E(X \pm Y) = E(X) \pm E(Y)\]

4)$X$和$Y$不相关, 则:

\[E(XY) = E(X)E(Y)\]

方差的性质

1) 设$C$为常数, 则$D(C) = 0$。 反过来, $D(X) = 0$并不能得出$X$为常数的结论。

2) 设$X$是随机变量, $a$和$b$是常数, 则有

\[D(aX + b) = a^2 D(X)\]

3) $X$和$Y$不相关, 则:

\[D(X \pm Y) = D(X) + D(Y)\]

大数定理

设随机变量$X_1, X_2, …, X_3$, 它们彼此之间满足独立同分布, 因此它们拥有相同的均值$\mu$和方差$\sigma^2$。

这组随机变量的均值: $M_n = \frac{X_1 + X_2 + … + X_n}{n}$

均值的期望$E[M_n]$

\[E[M_n] = E[\frac{X_1 + X_2 + ... + X_n}{n}] \\ = \frac{1}{n} (E[X_1] + E[X_2] + ... + E[X_n]) = \frac{1}{n} \times n \times \mu = \mu = E[X_i]\]

一组独立同分布的随机变量的均值的期望 等于 随机变量的期望

均值的方差$var[M_n]$

\[var[M_n] = var[\frac{X_1 + X_2 + ... + X_n}{n}] \\ = \frac{1}{n^2} var[X_1 + X_2 + ... + X_n] \\ = \frac{1}{n^2} (var[X_1] + var[X_2] + ... + var[X_n]) \\ = \frac{1}{n^2} \times n \times \sigma^2 = \frac{\sigma^2}{n}\]

n个独立同分布的随机变量均值的方差 是 单一随机变量方差的$\frac{1}{n}$

当$n \rightarrow \infty$, 随机变量的均值的方差趋近于0。

因此当$n \rightarrow \infty$时, 样本的平均值就可以说是$E[X]$

两个重要不等式

对于一组非负的随机变量$X$, 如果它的均值很小, 那么一个随机变量取到一个很大的值的概率是非常小的。

因为随机变量分布大都集中在均值附近, 越远离均值, 概率就越小。

描述这个现象, 有一个不等式, 叫做马尔可夫不等式

\[P(\mid X - \mu \mid \geq \epsilon) \leq \frac{E[X]}{\epsilon}\]

切比雪夫不等式

\[P(\mid X - \mu \mid \geq \epsilon) \leq \frac{\sigma^2}{\epsilon^2}\]

一个随机变量的方差很小的话, 那么这个随机变量取到远离均值$\mu$的概率也是非常小的。

中心极限定理

随机变量序列$X_1, X_2, …, X_n$, 这n个随机变量满足独立同分布, 均值为$\mu$, 方差为$\sigma^2$

设随机变量$Z_n$

\[Z_n = \frac{X_1 + X_2 + ... + X_n - n\mu}{\sqrt{n} \sigma}\] \[E[Z_n] = E[\frac{X_1 + X_2 + ... + X_n - n\mu}{\sqrt{n} \sigma}] \\ = \frac{E[X_1 + X_2 + ... + X_n] - n\mu}{\sqrt{n} \sigma} \\ = \frac{nE[X] - n\mu}{\sqrt{n} \sigma} = 0\] \[var[Z_n] = var[\frac{X_1 + X_2 + ... + X_n - n\mu}{\sqrt{n} \sigma}] \\ = \frac{var[X_1] + var[X_2] + ... + var[X_n]}{n\sigma^2} = 1\]

上面用到的方差的性质:

  • 常数的方差为0
  • 若$X$和$Y$不相关, $D(X \pm Y) = D(X) \pm D(Y)$\
  • $D(aX + b) = a^2 D(X)$

随机变量$Z_n$的期望为0,方差为1

即随着样本个数n的增大, 随机变量$Z_n$的分布逐渐趋向于一个标准正态分布, 当$n \rightarrow \infty$时, 随机变量的分布收敛于一个标准正态分布。

这个定理对随机变量$X$的原始分布没有任何要求, 具有一般性。

总结: 一组随机变量的和$S=X_1 + X_2 + … + X_n$服从均值为$\mu$, 方差为$\sigma^2$的正态分布。 $Z_n$当n非常大值,服从标准正态分布。

几何分布:在伯努利试验中,成功的概率为p,若ξ表示出现首次成功时的试验次数,则ξ是离散型随机变量,它只取正整数,且有P(ξ=k)=(1-p)的(k-1)次方乘以p (k=1,2,…,0<p<1),此时称随机变量ξ服从几何分布。它的期望为1/p,方差为(1-p)/(p的平方)。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
fig, ax = plt.subplots(2, 2)

geom_rv = geom(p=0.3)
geom_rvs = geom_rv.rvs(size=1000000)
mean, var, skew, kurt = geom_rv.stats(moments='mvsk')

print('mean: {}'.format(mean))
print('var: {}'.format(var))

ax[0, 0].hist(geom_rvs, bins=100, density=True)
ax[0, 0].set_title('geom distribution:p=0.3')
n_array = [0, 2, 5, 50]

for i in range(1, 4):
    Z_array = []
    n = n_array[i]
    for j in range(100000):
        # 从geom_rvs中选n个数
        sample = np.random.choice(geom_rvs, n)
        Z_array.append((sum(sample) - n * mean) / np.sqrt(n * var))

    # 一共采样了100000个数,柱状高度表示有多少数落入其内?
    # 因为进行了标准化,所以纵轴并不是个数而是频率
    ax[i//2, i%2].hist(Z_array, bins=100, density=False)
    ax[i//2, i%2].set_title('n={}'.format(n))
    ax[i//2, i%2].set_xlim(-5, 5)

plt.show()

蒙特卡罗方法

⽤⼤样本数据计算出来的频率去估计概率,这就是⼤数定理的本质,而⼤数定理思想的⼀个⾮常典型的应⽤就是蒙特卡罗⽅法。

蒙特卡罗⽅法,⼜叫统计模拟⽅法。

QA

Q1. 中心极限定理中$Z_n$和随机变量$X_1, X_2, …, X_n$是什么关系?

Q2.  如何理解中心极限定理中的Zn?

Q3. 马尔可夫不等式的证明?

Reference