uploaded_Ch5-大数定律和中心极限定理

我们研究的大数定理和中心极限定理是概率论中两类极限定理的统称。我们知道随机现象在一次试验中出现什么结果往往具有偶然性，但是在大量重复观察和试验下，往往呈现必然的规律。

预备知识

重要不等式

$X$ $E(X)$ $\varepsilon >0$ ，

P (X \geq ε) \leq \frac{E (X)}{ε}

证明：

\begin{matrix} P (X \geq ε) = \int_{X \geq ε} f (x) d x = \frac{1}{ε} \int_{X \geq ε} ε f (x) d x \\ \leq \frac{1}{ε} \int_{X \geq ε} x f (x) d x \leq \frac{1}{ε} \int_{} x f (x) d x = \frac{E (X)}{ε} \end{matrix}

马尔科夫不等式

$X$ $k$ $E(|X|^k)$ $\varepsilon>0$ ，

P (| X | \geq ε) \leq \frac{E (| X |^{k})}{ε^{k}}

Chebyshev 不等式 $X$ $E(X)=\mu$ $D(X)=\sigma^2$ $\varepsilon$ ，恒有不等式：

P (| X - μ | \geq ε) \leq \frac{σ^{2}}{ε^{2}}

或

P (| X - μ | \leq ε) > 1 - \frac{σ^{2}}{ε^{2}}

$|X-\mu| \le \varepsilon$ $\sigma$ $\varepsilon$ 越大，落在区间内的几率就越大。

$X$ $f(x)$ ，则：

\begin{matrix} P (| X - μ | \geq ε) = \int_{| X - μ | \geq ε} f (x) d x \leq \int_{| X - μ | \geq ε} \underset{\geq 1}{\underset{⏟}{{(\frac{x - μ}{ε})}^{2}}} f (x) d x \\ \leq \int_{- \infty}^{+ \infty} {(\frac{x - μ}{ε})}^{2} f (x) d x = D (x) / ε^{2} = \frac{σ^{2}}{ε^{2}} \end{matrix}

一般地，

P (| X - μ | < k σ) > 1 - \frac{1}{k^{2}} (k > 0)

注意这个公式是一个不等式，实际情况，可能估计相差较大，如下题：

$10000$ 盏电灯，每一盏灯是否开启相互独立，并且均为 0.7，用 Chebyshev 不等式估计夜晚同时开灯数在 6800~7200 的概率。

$E(X)$ $D(X)$ $\mu$ ，否则效果较差。

依照概率收敛 $Y_1,Y_2,\cdots, Y_n,\cdots$ $X$ $\forall \varepsilon>0$ ，有：

lim_{n \to + \infty} P (| Y_{n} - X | \geq ε) = 0 or lim_{n \to + \infty} P (| Y_{n} - X | < ε) = 1

$X$ $Y_{n} \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} X$ . （并不能保证一定发生，只能保证出现偏差的概率很小）

$X$ $a$ $Y_1,\cdots,Y_n$ $E(Y)$ ）

$n$ $a$ 点附近。

大数定理

Bernoulli 大数定理 $n_A$ $n$ 独立重复试验 $A$ $p$ $A$ $\forall \varepsilon>0$ ，有：

lim_{n \to + \infty} P (| \frac{n_{A}}{n} - p | \geq ε) = 0

类似于依概率收敛的定义。
$n_A/n$ $Y$ 。
$X_1,X_2,\cdots,X_n,\cdots$ $k$ 次试验是否发生，可知：
$E (X_{k}) = p, D (X_{k}) = p q$
$n_A=\sum X_k$ ，有：
$E (Y) = n p / n = p, D (Y) = p q \times n / n^{2} = p q / n$
由 Chebyshev 不等式，有：
$0 \leq P (| Y - p | \geq ε) = P (| Y - E (Y) | \geq ε) \leq \frac{1}{ε^{2}} \cdot \frac{p q}{n}$
$\lim_{n \to +\infin} P\left(\left|Y-p\right|\ge \varepsilon\right)=0$

说的其实就是用频率替代概率。

定义序列服从大数定理 $X_1,X_2,\cdots,X_n,\cdots$ $\forall \varepsilon>0$ ，有：

lim_{n \to + \infty} P (| \frac{1}{n} \sum_{k = 1}^{n} X_{k} - \frac{1}{n} \sum_{k = 1}^{n} E (X_{k}) | < ε) = 1

则称该序列服从大数定律。

即说明取无限多次后，随机变量序列的期望可以用每一项的期望代替。

常用的几个大数定律

Chebyshev 大数定理 $X_1,X_2\cdots,X_n$ $\rho_{X_iX_j}=0,i\not=j$ $D(X_k)=\sigma_k^2 \le \sigma^2$ $k=1,2,3,\cdots,n,\cdots$ $E(X_k)=\mu_k$ ，则称该序列服从大数定律。

$X=\frac{1}{n}\sum_{k=1}^n X_k$ 代入 Chebyshev 不等式，可以得到：

P (| X - E (X) | \geq ε) \leq \frac{D (X)}{ε^{2}}

而：

E (X) = \frac{1}{n} \sum_{k = 1}^{n} μ_{k}, D (X) \overset{因 为 不 相 关}{=} \frac{1}{n^{2}} \sum_{k = 1}^{n} D (X_{i}) = \frac{1}{n^{2}} \sum_{k = 1}^{n} σ_{k}^{2} \leq σ^{2} / n

因此：

\begin{matrix} P (| X - E (X) | \geq ε) \leq \frac{σ^{2}}{n ε^{2}} \\ P (| X - E (X) | < ε) \geq 1 - \frac{σ^{2}}{n ε^{2}} \end{matrix}

$n \to +\infin$ $\sigma^2/(n\varepsilon^2)\to 0$ ，因此结论得证。

$X_1,X_2,\cdots,X_n,\cdots$ $\displaystyle \frac{1}{n^2} D\left(\sum_{k=1}^n X_k\right) \overset{n\to +\infin}{-\!\!-\!\!\!\to } 0$ . 更加本质。即 Markov 条件。满足 Markov 条件的序列服从 Markov 大数定律。

Khintchine 大数定理 $X_1,X_2\cdots,X_n,\cdots$ $E(X_k)=\mu,k=1,2,\cdots$ ，则该序列服从大数定理。

$k$ $\displaystyle \frac{1}{n}\sum_{i=1}^n X_i^k=M_k$ $M_k\underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} \mu_k,k=1,2,\cdots$ .

按照大数定理，保险公司必须保证客户数量足够多，才能维持正常运营。

中心极限定理

$n\to \infin$ $Y_n=X_1+X_2+\cdots+X_n$ 的分布？
Q: 为什么正态分布如此重要，如此普遍？背后有什么原因？
$Y_n$ 的极限分布就是正态分布。

独立同分布的中心极限定理（Lindeberg-Levy 中心极限定理） $X_1,X_2,\cdots,X_n,\cdots$ $E(X_k)=\mu,D(X_k)=\sigma^2$ $k=1,2,\cdots,n\cdots$ $x$ ，有：

lim_{n \to \infty} P (\frac{\sum_{k = 1}^{n} X_{k} - n μ}{\sqrt{n} σ} \leq x) = Φ (x)

$\displaystyle \Phi(x)=\frac{1}{\sqrt{2\pi}} \int_{-\infin} ^x e^{-t^2/2}\mathrm d t$ .

$Y_n=\sum_{k=1}^n X_k$ $E(Y_n)=n\mu,D(Y_n)=\sum_{k=1}^n \sigma^2=n \sigma^2$ .

$Y_n$ 就是不等式中出现的随机变量。

$Y_n$ 近似服从于：

N (n μ, n σ^{2})

Q: 服从正态分布的随机数如何用电脑产生？
$X\sim U(0,1)$ $E(X)=1/2,D(X)=1/12$ ，令：
$Y_{12} = \sum_{i = 1}^{12} X_{i}$
$X_1,X_2,\cdots,X_{12}$ $(0,1)$ $E(Y_{12})=6,D(Y_{12})=1$ ，近似：
$Y_{12} - 6 \sim N (0, 1)$
Q: 还有什么其它的方法，可以生成服从任意分布的随机数？
使用 逆变换法：
$X\sim U(0,1)$ .
$F(x)$ $F^{-1}(U)$ 即为服从指定分布的随机数。
$F(x)=1-e^{-ax}$ $F^{-1}(y)=-\frac{1}{a}\ln (1-y)$ .
因为正态分布的分布函数不具有解析表达式，所以不好用逆变换法处理，事实上通过中心极限定理生成已经是最好的方法了。
使用 拒绝分布采样法：
$z_0\in q(z)$ $u_0\sim U(0,1)$ .
$u_0 \le p(z_0)/k q(z_0)$ $z_0$ .
如果不的话，等于放弃这一轮，再次循环一轮。

De Moivre-Laplace 中心极限定理 $Y_n\sim B(n,p),0<p<1,n=1,2,\cdots$ $x$ ，有：

lim_{n \to \infty} P (\frac{Y_{n} - n p}{\sqrt{n p (1 - p)}} \leq x) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{x} e^{- t^{2} / 2} d t

$E(Y_n)=np,D(Y_n)=np(1-p)$ $Y_n$ $N(np,np(1-p))$ .

也就是中心极限定理的一种特例。

往年考题

21-18

$E(S_n)=1$ $i$ $S_n^{(i)}$ $S_n^{(i)}\sim$ $E(S_n^{(i)})=\frac{1}{n}$ $E(S_n)=\sum E(S_n^{(i)})=1$ .

$D(S_n)$ $\operatorname{cov}(S_n^{(i)},S_n^{(j)})$ ，由协方差的定义，有：

cov (S_{n}^{(i)}, S_{n}^{(j)}) = E (S_{n}^{(i)} S_{n}^{(j)}) - E (S_{n}^{(i)}) E (S_{n}^{(j)}) = E (S_{n}^{(i)} S_{n}^{(j)}) - \frac{1}{n^{2}}

$E(S_n^{(i)}S_n^{(j)})=P(S_n^{(i)}S_n^{(j)}=1)$ $i$ $j$ $E(S_n^{(i)}S_n^{(j)})=1/n(n-1)$ . 因此，

cov (S_{n}^{(i)}, S_{n}^{(j)}) = \frac{1}{n^{2} (n - 1)}

\begin{matrix} D (S_{n}) = \sum_{i = 1}^{n} D (S_{n}^{(i)}) + 2 \sum_{i < j} cov (S_{n}^{(i)}, S_{n}^{(j)}) \\ = n \cdot \frac{1}{n} (1 - \frac{1}{n}) + 2 \cdot \frac{n (n - 1)}{2} \frac{1}{n^{2} (n - 1)} = 1 \end{matrix}

因此，由 Chebyshev 不等式，有：

P (| S_{n} - 1 | \geq n ε) = \frac{D (S_{n})}{(n ε)^{2}} = \frac{1}{n^{2} ε^{2}}

lim_{n \to + \infty} P (| S_{n} - 1 | \geq n ε) = 0

还可以推出：

\frac{S_{n} - 1}{n} 依 概 率 收 敛 于 零