Q: 数理统计研究的是什么?和之前概率论研究的方法有什么异同?

在概率论的问题中,我们一般假定随机变量服从的分布已知。

在数理统计中,面对真实的数据和情况,我们一般不知道数据服从什么分布(Ch6-常见统计量的分布),或者知道分布的类型,但是不知道分布的参数(Ch7-参数估计)

数理统计的基本概念

总体和个体

总体——研究对象全体元素组成的集合。记为 X.

个体——组成总体的每一个元素。记为 Xi.

样本——从总体中抽取的部分个体。用 (X1,X2,,Xn) 表示,(x1,x2,,xn) 表示样本的观测值。

如果总体 X 的样本(X1,X2,Xn)满足:

  1. X1,X2,XnX 有相同的分布。

  2. X1,X2,Xn 相互独立。(有放回地抽取)

则称 (X1,X2,,Xn)简单随机样本

设总体 X 的分布函数为 F(X),则简单随机样本的联合分布函数:

F(x1,x2,,xn)=i=1nF(xi)f(x1,x2,,xn)=i=1nf(xi)

是因为简单随机样本样本之间相互独立,具有比较好的性质。

统计量和样本矩

称随机变量 g(X1,X2,,Xn)统计量g 函数内不能含有未知参数。称 g(x1,x2,,xn)统计量的观测值

一些常见的统计量:

可以分析 Sn2,和方差类似:

Sn2=1ni=1n(XiX)2=1ni=1nXi22X1ni=1nXi+X2=1ni=1nXi2X2=M2X2
S2=nn1Sn2=nn1(M2X2)

注:由 Khintchine 大数定律,可得:

Mk=1ni=1nXikμk=E(Xk)

重要结论 设总体 X 的期望与方差存在,E(X)=μ,D(X)=σ2,则:

E(X)=μ,D(X)=σ2n,E(S2)=σ2

研究了统计量的期望和方差。之后,我们会发现样本均值 X 是总体期望 μ 的无偏估计,样本方差 S2 是总体方差 σ2 的无偏估计——为什么名字叫样本方差。

假设抽取简单随机样本 X1,X2,,Xn,则:

E(Xi)=μ,D(Xi)=σ2

则:

E(X)=1ni=1nE(Xi)=μ
D(X)=1n2i=1nD(Xi)=σ2n

为了求 S2,我们先计算 Sn2,抽取某个 k

E(Sn2)=1ni=1nE(Xi2)E(X2)=E(Xk2)E(X2)Xk2Xi2=D(Xk)+E(Xk)2(D(X)+E(X)2)=σ2+μ2(σ2n+μ2)=n1nσ2
E(S2)=E(nn1Sn2)=σ2

image-20231122111628745

由于 X1,X2,,Xn 相互独立,得到联合分布律:

P(X1=k1,X2=k2,,Xn=kn)=i=1n(λkiki!eλ)

由于 E(X)=D(X)=λ,可知,E(X)=μ=λ,D(X)=σ2/n=λ/n. E(S2)=σ2=λ.


X 是连续型随机变量,其概率密度为 f(x)α 为给定常数,0<α<1,若 P(X>xα)=α,则称 xαX 所服从分布的上侧 α 分位数,若 X 的概率密度为偶函数,则对于满足 0<α<1/2α,若 P(|X|>xα/2)=α,则称 xα/2X 所服从的双侧 α 分位数。

常用统计量的分布(抽样分布)

因为实践中很多统计推断是基于正态分布的假设的,故以标准正态分布变量为基石而构造的三个著名统计量有很广泛的应用,被称为“三大抽样分布”

正态分布

XiN(μ,σ2),平均值统计量:

1ni=1nXiN(μ,σ2/n)

可知 n 越大,方差越小,偏离中心的程度越小。

卡方分布

设随机变量 X1,X2,,Xn 相互独立,且均服从标准正态分布 N(0,1),则称统计量 χ2=i=1nXi2 服从自由度为 nχ2 分布,记为 i=1nXi2χ2(n).

卡方分布的概率密度函数

特别地,n=1 时,其密度函数为:

f(x)=12πx1/2ex/2,x>0;0,x0χ2(1)=N(0,1)

n=2 时,其密度函数为:

f(x)=12ex/2,x>0;0,x0

服从指数分布。

一般地,

fχ2(x)={12n2Γ(n2)ex2xn21,x>0,0,x0,

利用 Gamma 函数和数学归纳法可证明。

卡方分布的性质

t 分布

XN(0,1),Yχ2(n)X,Y 相互独立,则称随机变量

T=XY/n

服从自由度为 n 的 t 分布,记为 Tt(n),其概率密度为:

f(t)=Γ(n+12)nπΓ(n2)(1+t2n)n+12,<t<+

image-20231218225350014

趋于 N(0,1).


例题,设 X,Y 相互独立,XN(0,16),YN(0,9)X1,X2,,X9Y1,Y2,,Y16 分别是取自于 X,Y 的简单随机样本。求下面统计量服从的分布:

X1+X2++X9Y12+Y22++Y162

注意到 X/4N(0,1),Y/3N(0,1).

1/9Y2χ2(16)1/4XN(0,9),1/12XN(0,1).

上下同乘 3,可得服从 n=16t 分布。


设总体 XN(0,σ2)(X1,X2,X3,X4) 为总体 X 的一个样本,令:

Y=3X4X12+X22+X32

好习惯:设出随机变量 U,V,设:

U=X4σN(0,1)V=i=13(Xi/σ)2χ2(3)

还有 U,V 相互独立,则:

Y=UV/nt(3)

再求 Y 的期望,因为关于原点对称,且 n>1,所以期望为零。

F 分布

Uχ2(m),Vχ2(n),且 U,V 相互独立,则称随机变量

F=U/mV/n

服从第一自由度为 m,第二自由度为 nF 分布,记为 FF(m,n),其概率密度为:

fF(t)={Γ(m+n2)Γ(m2)Γ(n2)(mn)m2tm21(1+mnt)m+n2,t>0,0,t0

img

性质


证明 (t1α/2(n))2=Fα(1,n).

注意到

F=G/1Y/nF(1,n)T=G2Y/nt(n)

因此 F=T2.

P(F>Fα(1n))=α,P(T2>(tα/2(n))2)=α.

代入 tα/2(n)=t1α/2(n) 即可。

正态总体的抽样分布

单个正态总体的抽样分布

XN(μ,σ2)(X1,X2,,Xn) 是来自总体 X 的一个简单随机样本,X,S2 分别为样本均值和样本方差。

为了证明上面的结论需要引理:已知 X1,X2,,Xn 相互独立且服从同一分布 XiN(0,1),若作正交变换(C 是一个正交矩阵)

Y=(Y1Y2Yn)=C(X1X2Xn)=CX

Y1,Y2,,Yn 相互独立且服从同一分布 YiN(0,1).

证明之前我们先直观感受一下它在说什么,正交变换代表将一个密度函数绕着原点旋转一定的方位(经过正交变换),仍然不变,这告诉我们 (X1,X2,,Xn) 的分布关于原点中心对称。如图所示:

img

我们可以再观察每个点到原点的距离 l=xi2 和联合密度函数:

f1(x1,x2,,xn)=i=1nφ(xi)=(12π)ne12i=1nxi2=(12π)ne12l2

因此只和 l 有关,直观上说明了我们的结论是正确的。会不会有其他的函数

严谨的证明还要多一步,利用变量代换的 Jacobi 矩阵和正交变换的性质,说明:

并且,Y1g(Y2,Y3,,Yn)=i=2nYi2 相互独立。(因为用的变量都不同)

知道了这个引理之后,我们再次证明前面的结论,令:

Yi=Xiμσ,i=1,2,,nYiN(0,1)

Y 作一个特殊的正交变换,得到 Z.

Z=(Z1Z2Zn)=C(Y1Y2Yn)

其中 C 特殊之处在于第一维做了“取平均的操作”

C=(1n1nc21c2ncn1cnn)

则:Z1=nY.

有:

(n1)S2σ2=1σ2i=1n(XiX)2=i=1n(Xiμσ2Xμσ2)2=i=1n(YiY)2=i=1nYi2nY2=i=1nZi2Z12=i=2nZi2χ2(n1)

由于 Z1=Xμσ/ni=2nZi2=(n1)S2σ2 是相互独立的,所以样本方差 S2 和样本均值 X 相互独立。

多个正态分布总体的抽样分布

(X1,X2,X3,,Xm)(Y1,Y2,,Yn) 为来自总体 N(μ1,σ12)N(μ2,σ22) 的样本,且两样本之间相互独立,记:

S12=1m1i=1m(XiX)2,S22=1n1i=1n(XiX)2

则:


(X1,X2) 为来自正态总体 N(0,1) 的一个样本,求常数 k,使得:

P((X1+X2)2(X1X2)2+(X1+X2)2>k)=0.05

可知,(X1+X2)N(0,2)(X1X2)N(0,2),且两者不相关。

因此,

U=12(X1+X2)2χ2(1)V=12[(X1+X2)2+(X1X2)2]χ2(2)

U,V 之间似乎不是相互独立的……但是我们可以对函数做一些变换:

P(1+(X1X2)2(X1+X2)2<1k)=0.05P((X1X2)2(X1+X2)2<1k1)=0.05

这下,可以看出 (X1X2)2(X1+X2)2F(1,1). 再利用分位数的性质:

P((X1X2)2(X1+X2)2>1k1)=10.05
F10.05(1,1)=1F0.05(1,1)=1161
1k1=1161k=161162

往年试题

19-1-8

image-20231218185751090

可知,XμN(0,1/n),因此 n(Xμ)2χ2(1).

可知,(n1)S2χ2(n1).

因为样本均值 X 和样本方差 S2 相互独立(回顾书里的结论)

所以 n(Xμ)2+(n1)S2χ2(n).