uploaded_Ch6-数理统计的基本概念

Q: 数理统计研究的是什么？和之前概率论研究的方法有什么异同？
在概率论的问题中，我们一般假定随机变量服从的分布已知。
在数理统计中，面对真实的数据和情况，我们一般不知道数据服从什么分布（Ch6-常见统计量的分布），或者知道分布的类型，但是不知道分布的参数（Ch7-参数估计）

数理统计的基本概念

总体和个体

总体 $X$ .

个体 $X_i$ .

样本 $(X_1,X_2,\cdots,X_n)$ $(x_1,x_2,\cdots,x_n)$ 表示样本的观测值。

$X$ $X_1,X_2\cdots,X_n$ ）满足：

$X_1,X_2\cdots,X_n$ $X$ 有相同的分布。
$X_1,X_2\cdots,X_n$ 相互独立。（有放回地抽取）

$(X_1,X_2,\cdots,X_n)$ 为 简单随机样本。

$X$ $F(X)$ ，则简单随机样本的联合分布函数：

F (x_{1}, x_{2}, \dots, x_{n}) = \prod_{i = 1}^{n} F (x_{i}) f (x_{1}, x_{2}, \dots, x_{n}) = \prod_{i = 1}^{n} f (x_{i})

是因为简单随机样本样本之间相互独立，具有比较好的性质。

统计量和样本矩

$g(X_1,X_2,\cdots,X_n)$ 统计量 $g$ $g(x_1,x_2,\cdots,x_n)$ 为 统计量的观测值。

一些常见的统计量：

$\displaystyle \overline{X}=\frac{1}{n}\sum_{i=1}^n X_i$ 样本均值 $\overline{X}$ $\overline{x}$ .
$\displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2$ 样本方差 $S^2$ $s^2$ .
$S$ 样本标准差 $S$ $s$ .
$1/(n-1)$ ? 后面我们将会推导。
$\displaystyle M_k=\frac{1}{n}\sum_{i=1}^n X_i^k (k=1,2,\cdots)$ $\boldsymbol k$ 阶原点矩 $M_k$ $m_k$ $k=1$ 时退化为样本均值。
$\displaystyle (CM)_k=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^k(k=1,2,\cdots)$ $\boldsymbol{k}$ 阶中心矩 $(CM)_k$ $(cm)_k$ .
$(C M)_{2} = \frac{n - 1}{n} S^{2} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{2} \equiv S_{n}^{2}$
$(CM)_2$ $S_n^2$ .

$S_n^2$ ，和方差类似：
$\begin{aligned} S_{n}^{2} & = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{2} - 2 \overset{―}{X} \cdot \frac{1}{n} \sum_{i = 1}^{n} X_{i} + {\overset{―}{X}}^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{2} - {\overset{―}{X}}^{2} \\ = M_{2} - {\overset{―}{X}}^{2} \end{aligned}$ $S^{2} = \frac{n}{n - 1} S_{n}^{2} = \frac{n}{n - 1} (M_{2} - {\overset{―}{X}}^{2})$

$(x_1,x_2,\cdots,x_n) \in \R^n$ ，定义随机变量：
$X_{(k)} = x_{k}^{*}, k = 1, 2, \dots, n$
$X_{(1)},X_{(2)},\cdots,X_{(n)}$ $(x_1,x_2,\cdots,x_n)$ $x_1^*\le x_2^*\le \cdots \le x_n^*$ .

注：由 Khintchine 大数定律，可得：

M_{k} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{k} \to μ_{k} = E (X^{k})

重要结论 $X$ $E(X)=\mu,D(X)=\sigma^2$ ，则：

E (\overset{―}{X}) = μ, D (\overset{―}{X}) = \frac{σ^{2}}{n}, E (S^{2}) = σ^{2}

$\overline{X}$ $\mu$ $S^2$ $\sigma^2$ 的无偏估计——为什么名字叫样本方差。

$X_1,X_2,\cdots,X_n$ ，则：

E (X_{i}) = μ, D (X_{i}) = σ^{2}

则：

E (\overset{―}{X}) = \frac{1}{n} \sum_{i = 1}^{n} E (X_{i}) = μ

D (\overset{―}{X}) = \frac{1}{n^{2}} \sum_{i = 1}^{n} D (X_{i}) = \frac{σ^{2}}{n}

$S^2$ $S_n^2$ $k$ ：

\begin{aligned} E (S_{n}^{2}) & = \frac{1}{n} \sum_{i = 1}^{n} E (X_{i}^{2}) - E ({\overset{―}{X}}^{2}) 利 用 之 前 的 结 论 \\ = E (X_{k}^{2}) - E ({\overset{―}{X}}^{2}) 因 为 X_{k}^{2} 和 X_{i}^{2} 服 从 同 一 个 分 布 \\ = D (X_{k}) + E (X_{k})^{2} - (D (\overset{―}{X}) + E (\overset{―}{X})^{2}) \\ = σ^{2} + μ^{2} - (\frac{σ^{2}}{n} + μ^{2}) \\ = \frac{n - 1}{n} σ^{2} \end{aligned}

E (S^{2}) = E (\frac{n}{n - 1} S_{n}^{2}) = σ^{2}

$X_1,X_2,\cdots, X_n$ 相互独立，得到联合分布律：

P (X_{1} = k_{1}, X_{2} = k_{2}, \dots, X_{n} = k_{n}) = \prod_{i = 1}^{n} (\frac{λ^{k_{i}}}{k_{i}!} e^{- λ})

$E(X)=D(X)=\lambda$ $E(\overline{X})=\mu=\lambda,D(\overline{X})=\sigma^2/n=\lambda/n$ $E(S^2)=\sigma^2=\lambda$ .

$X$ $f(x)$ $\alpha$ $0<\alpha<1$ $P(X>x_\alpha)=\alpha$ $x_\alpha$ $X$ $\alpha$ $X$ $0<\alpha<1/2$ $\alpha$ $P(|X|>x_{\alpha/2})=\alpha$ $x_{\alpha/2}$ $X$ $\alpha$ 分位数。

常用统计量的分布（抽样分布）

因为实践中很多统计推断是基于正态分布的假设的，故以标准正态分布变量为基石而构造的三个著名统计量有很广泛的应用，被称为“三大抽样分布”

正态分布

$X_i \sim N(\mu,\sigma^2)$ ，平均值统计量：

\frac{1}{n} \sum_{i = 1}^{n} X_{i} \sim N (μ, σ^{2} / n)

$n$ 越大，方差越小，偏离中心的程度越小。

卡方分布

$X_1,X_2,\cdots,X_n$ 相互独立 $N(0,1)$ $\chi^2=\sum_{i=1}^n X_i^2$ $n$ $\chi^2$ $\sum_{i=1}^n X_i^2 \sim \chi^2(n)$ .

卡方分布的概率密度函数

$n=1$ 时，其密度函数为：

f (x) = \frac{1}{\sqrt{2 π}} x^{- 1 / 2} e^{- x / 2}, x > 0; 0, x \leq 0 \Rightarrow χ^{2} (1) = N (0, 1)

$n=2$ 时，其密度函数为：

f (x) = \frac{1}{2} e^{- x / 2}, x > 0; 0, x \leq 0

服从指数分布。

一般地，

\begin{matrix} f_{χ^{2}} (x) = {\begin{cases} \frac{1}{2^{\frac{n}{2}} Γ (\frac{n}{2})} e^{- \frac{x}{2}} x^{\frac{n}{2} - 1}, & x > 0, \\ 0, & x ⩽ 0, \end{cases} \end{matrix}

利用 Gamma 函数和数学归纳法可证明。

卡方分布的性质：

期望和方差 $E(\chi^2(n))=n,D(\chi^2(n))=2n$ . 证明
在独立前提下的可加性 $X_1\sim \chi^2(n_1),X_2\sim \chi^2 (n_2)$ $X_1,X_2$ 相互独立，则：
$X_{1} + X_{2} \sim χ^{2} (n_{1} + n_{2})$
卡方分布的极限是正态分布 $n\to\infin$ $\chi^2(n)\to$ 正态分布。

t 分布

$X\sim N(0,1),Y\sim \chi^2(n)$ $X,Y$ 相互独立，则称随机变量

T = \frac{X}{\sqrt{Y / n}}

$n$ $T\sim t(n)$ ，其概率密度为：

f (t) = \frac{Γ (\frac{n + 1}{2})}{\sqrt{n π} Γ (\frac{n}{2})} {(1 + \frac{t^{2}}{n})}^{- \frac{n + 1}{2}}, - \infty < t < + \infty

$n=1$ $t(1)$ 为 Cauchy 分布，其数学期望不存在；
$n>1$ $t$ 分布的数学期望为零。
$t$ 偶函数 $n\to\infin$ $f(t)\to \varphi(t)=\frac{1}{\sqrt{2\pi}} e^{-t^2/2}$ .
$t_{1-\alpha}(n)=-t_\alpha(n)$

$N(0,1)$ .

$X,Y$ $X\sim N(0,16),Y\sim N(0,9)$ $X_1,X_2,\cdots,X_9$ $Y_1,Y_2,\cdots,Y_{16}$ $X,Y$ 的简单随机样本。求下面统计量服从的分布：

\frac{X_{1} + X_{2} + \dots + X_{9}}{\sqrt{Y_{1}^{2} + Y_{2}^{2} + \dots + Y_{16}^{2}}}

$X/4\sim N(0,1),Y/3\sim N(0,1)$ .

$1/9\sum Y^2 \sim \chi^2(16)$ $1/4\sum X\sim N(0,9),1/12\sum X\sim N(0,1)$ .

$3$ $n=16$ $t$ 分布。

$X\sim N(0,\sigma^2)$ $(X_1,X_2,X_3,X_4)$ $X$ 的一个样本，令：

Y = \frac{\sqrt{3} X_{4}}{\sqrt{X_{1}^{2} + X_{2}^{2} + X_{3}^{2}}}

$U,V$ ，设：

U = \frac{X_{4}}{σ} \sim N (0, 1) V = \sum_{i = 1}^{3} (X_{i} / σ)^{2} \sim χ^{2} (3)

$U,V$ 相互独立，则：

Y = \frac{U}{\sqrt{V / n}} \sim t (3)

$Y$ $n>1$ ，所以期望为零。

F 分布

$U\sim \chi^2(m),V\sim \chi^2(n)$ $U,V$ 相互独立，则称随机变量

F = \frac{U / m}{V / n}

$m$ $n$ $F$ $F\sim F(m,n)$ ，其概率密度为：

\begin{matrix} f_{F} (t) = {\begin{cases} \frac{Γ (\frac{m + n}{2})}{Γ (\frac{m}{2}) Γ (\frac{n}{2})} {(\frac{m}{n})}^{\frac{m}{2}} t^{\frac{m}{2} - 1} {(1 + \frac{m}{n} t)}^{- \frac{m + n}{2}}, & t > 0, \\ 0, & t ⩽ 0 \end{cases} \end{matrix}

性质

$F\sim F(m,n)$ $\displaystyle \frac{1}{F}\sim F(n,m)$ .
$\displaystyle F_{1-\alpha}(n,m)=\frac{1}{F_\alpha(m,n)}$ .

$(t_{1-\alpha/2}(n))^2=F_\alpha(1,n)$ .

注意到

F = \frac{G / 1}{Y / n} \sim F (1, n) T = \frac{G^{2}}{\sqrt{Y / n}} \sim t (n)

$F=T^2$ .

$P(F>F_\alpha(1-n))=\alpha,P(T^2>(-t_{\alpha/2}(n))^2)=\alpha$ .

$-t_{\alpha/2}(n)=t_{1-\alpha/2}(n)$ 即可。

正态总体的抽样分布

单个正态总体的抽样分布

$X\sim N(\mu,\sigma^2)$ $(X_1,X_2,\cdots,X_n)$ $X$ $\overline{X},S^2$ 分别为样本均值和样本方差。

则

$\frac{(n - 1) S^{2}}{σ^{2}} = \frac{1}{σ^{2}} \sum_{i = 1}^{n} {(X_{i} - \overset{―}{X})}^{2} = \sum_{i = 1}^{n} {(\frac{X_{i} - \overset{―}{X}}{σ})}^{2} \sim χ^{2} (n - 1)$
注意和下面结论的区分：
$\sum_{i = 1}^{n} {(\frac{X_{i} - μ}{σ})}^{2} \sim χ^{2} (n)$
$X_i,\overline{X}$ 不是相互独立的。
$\overset{―}{X} \sim N (μ, \frac{σ^{2}}{n}) \frac{\overset{―}{X} - μ}{σ / \sqrt{n}} \sim N (0, 1)$
$S^2$ $\overline{X}$ 相互独立。
$\frac{\overset{―}{X} - μ}{S / \sqrt{n}} \sim t (n - 1)$
$\displaystyle \frac{\overline{X}-\mu}{\sigma/\sqrt n} \sim N(0,1)$ $\displaystyle \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)$ .

$X_1,X_2,\cdots,X_n$ $X_i \sim N(0,1)$ $\boldsymbol C$ 是一个正交矩阵）

\begin{matrix} Y = (\begin{matrix} Y_{1} \\ Y_{2} \\ ⋮ \\ Y_{n} \end{matrix}) = C (\begin{matrix} X_{1} \\ X_{2} \\ ⋮ \\ X_{n} \end{matrix}) = C X \end{matrix}

$Y_1,Y_2,\cdots,Y_n$ $Y_i \sim N(0,1)$ .

$(X_1,X_2,\cdots,X_n)$ 的分布关于原点中心对称。如图所示：
$l=\sqrt{\sum x_i^2}$ 和联合密度函数：
$f_{1} (x_{1}, x_{2}, \dots, x_{n}) = \prod_{i = 1}^{n} φ (x_{i}) = {(\frac{1}{\sqrt{2 π}})}^{n} e^{- \frac{1}{2} \sum_{i = 1}^{n} x_{i}^{2}} = {(\frac{1}{\sqrt{2 π}})}^{n} e^{- \frac{1}{2} l^{2}}$
$l$ 有关，直观上说明了我们的结论是正确的。会不会有其他的函数

严谨的证明还要多一步，利用变量代换的 Jacobi 矩阵和正交变换的性质，说明：

$\sum x_i^2=\sum y_i^2$ .
$=1$ .

$Y_1$ $g(Y_2,Y_3,\cdots,Y_n)=\displaystyle \sum_{i=2}^n Y_i^2$ 相互独立。（因为用的变量都不同）

知道了这个引理之后，我们再次证明前面的结论，令：

Y_{i} = \frac{X_{i} - μ}{σ}, i = 1, 2, \dots, n \Rightarrow Y_{i} \sim N (0, 1)

$\boldsymbol Y$ $\boldsymbol Z$ .

\begin{matrix} Z = (\begin{matrix} Z_{1} \\ Z_{2} \\ ⋮ \\ Z_{n} \end{matrix}) = C (\begin{matrix} Y_{1} \\ Y_{2} \\ ⋮ \\ Y_{n} \end{matrix}) \end{matrix}

$\boldsymbol C$ 特殊之处在于第一维做了“取平均的操作”

\begin{matrix} C = (\begin{matrix} \frac{1}{\sqrt{n}} & \dots & \frac{1}{\sqrt{n}} \\ c_{21} & \dots & c_{2 n} \\ ⋮ & ⋮ \\ c_{n 1} & \dots & c_{n n} \end{matrix}) \end{matrix}

$Z_1=\sqrt{n}\overline{Y}$ .

有：

\begin{aligned} \frac{(n - 1) S^{2}}{σ^{2}} & = \frac{1}{σ^{2}} \sum_{i = 1}^{n} {(X_{i} - \overset{―}{X})}^{2} \\ = \sum_{i = 1}^{n} {(\frac{X_{i} - μ}{σ^{2}} - \frac{\overset{―}{X} - μ}{σ^{2}})}^{2} \\ = \sum_{i = 1}^{n} (Y_{i} - \overset{―}{Y})^{2} \\ = \sum_{i = 1}^{n} Y_{i}^{2} - n {\overset{―}{Y}}^{2} = \underset{到 原 点 距 离 不 变}{\underset{⏟}{\sum_{i = 1}^{n} Z_{i}^{2}}} - \underset{第 一 维 的 特 殊 情 况}{\underset{⏟}{Z_{1}^{2}}} \\ = \sum_{i = 2}^{n} Z_{i}^{2} \sim χ^{2} (n - 1) \end{aligned}

$Z_1=\displaystyle \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$ $\displaystyle \sum_{i=2}^n Z_i^2 = \frac{(n-1)S^2}{\sigma^2}$ $S^2$ $\overline{X}$ 相互独立。

多个正态分布总体的抽样分布

$(X_1,X_2,X_3,\cdots,X_m)$ $(Y_1,Y_2,\cdots,Y_n)$ $N(\mu_1,\sigma_1^2)$ $N(\mu_2,\sigma_2^2)$ 的样本，且两样本之间相互独立，记：

S_{1}^{2} = \frac{1}{m - 1} \sum_{i = 1}^{m} (X_{i} - \overset{―}{X})^{2}, S_{2}^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{2}

则：

$\displaystyle F=\frac{S_1^2}{S_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1,n-1)$ .
$S_1^2=\sigma_1^2 \chi_1^2/(n-1), S_2^2=\sigma_2^2 \chi_2^2/(m-1)$ .
$\sigma_1^2=\sigma_2^2 = \sigma^2$ ，则：
$T = \frac{\overset{―}{X} - \overset{―}{Y} - (μ_{1} - μ_{2})}{S_{w} \sqrt{\frac{1}{m} + \frac{1}{n}}} \sim t (m + n - 2)$
$\displaystyle S_w^2 = \frac{(m-1)S_1^2+(n-1)S_2^2}{m+n-2}$ .
证明，利用 t 分布的定义，注意到
$Q = \frac{\overset{―}{X} - \overset{―}{Y} - (μ_{1} - μ_{2})}{σ^{2} \sqrt{\frac{1}{m} + \frac{1}{n}}} \sim N (0, 1)$ $R = \frac{(m - 1) S_{1}^{2} + (n - 1) S_{2}^{2}}{σ^{2}} \sim χ^{2} (m + n - 2)$

$(X_1,X_2)$ $N(0,1)$ $k$ ，使得：

P (\frac{(X_{1} + X_{2})^{2}}{(X_{1} - X_{2})^{2} + (X_{1} + X_{2})^{2}} > k) = 0.05

$(X_1+X_2)\sim N(0,2)$ $(X_1-X_2)\sim N(0,2)$ ，且两者不相关。

因此，

\begin{matrix} U = \frac{1}{2} (X_{1} + X_{2})^{2} \sim χ^{2} (1) \\ V = \frac{1}{2} [(X_{1} + X_{2})^{2} + (X_{1} - X_{2})^{2}] \sim χ^{2} (2) \end{matrix}

$U,V$ 之间似乎不是相互独立的……但是我们可以对函数做一些变换：

\begin{matrix} P (1 + \frac{(X_{1} - X_{2})^{2}}{(X_{1} + X_{2})^{2}} < \frac{1}{k}) = 0.05 \\ P (\frac{(X_{1} - X_{2})^{2}}{(X_{1} + X_{2})^{2}} < \frac{1}{k} - 1) = 0.05 \end{matrix}

$\displaystyle \frac{(X_1-X_2)^2}{(X_1+X_2)^2}\sim F(1,1)$ . 再利用分位数的性质：

P (\frac{(X_{1} - X_{2})^{2}}{(X_{1} + X_{2})^{2}} > \frac{1}{k} - 1) = 1 - 0.05

F_{1 - 0.05} (1, 1) = \frac{1}{F_{0.05} (1, 1)} = \frac{1}{161}

\frac{1}{k} - 1 = \frac{1}{161} \Rightarrow k = \frac{161}{162}

往年试题

19-1-8

$\overline{X}-\mu \sim N(0,1/n)$ $n(\overline{X}-\mu)^2\sim \chi^2(1)$ .

$(n-1)S^2\sim \chi^2(n-1)$ .

$\overline{X}$ $S^2$ 相互独立（回顾书里的结论）

$n(\overline{X}-\mu)^2 +(n-1)S^2 \sim \chi^2(n)$ .